- ISBN:9787302566762
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:328
- 出版时间:2021-06-01
- 条形码:9787302566762 ; 978-7-302-56676-2
本书特色
本书主要介绍大数据的基本概念和技术,是数据科学与大数据专业的**门专业基础教材。 数据科学与大数据专业的导论性专业基础教材。
内容简介
大数据技术凝集了多学科的研究成果,是一门多学科的交叉融合技术。随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值。 “数据科学与大数据技术导论”是数据科学与大数据技术专业的门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。 本书主要介绍数据科学与大数据技术的基本知识。全书共分11章,包括数据科学与大数据技术概述、Hadoop大数据处理平台、大数据采集与存储管理、大数据抽取、大数据清洗、数据转换、大数据约简、大数据集成、大数据分析、大数据挖掘、数据可视化与可视分析等内容。 本书语言精练,内容完整,案例丰富,可作为高等院校“数据科学与大数据技术导论”课程的教材,也可作为学习数据科学与大数据技术人员的参考书。
目录
目录
第1章数据科学与大数据技术概述/1
知识结构1
1.1数据科学简介1
1.1.1数据科学的产生与发展1
1.1.2数据科学的定义与方法2
1.1.3数据科学的知识体系6
1.1.4数据科学、数据技术与数据工程7
1.2大数据的生态环境与概念8
1.2.1大数据的生态环境8
1.2.2大数据的概念9
1.3大数据处理周期12
1.3.1大数据处理的全过程12
1.3.2大数据技术的特征13
1.4大数据处理模式13
1.4.1离线处理模式14
1.4.2在线处理模式14
1.4.3交互处理模式19
1.5科学研究第四范式19
1.5.1科学研究范式产生与发展19
1.5.2数据密集型科学研究第四范式20
1.6大数据应用25
1.6.1大数据应用趋势25
1.6.2大数据应用评价与应用实例26
本章小结28
第2章Hadoop大数据处理平台/29
知识结构29
2.1MapReduce分布编程模型29
2.1.1MapReduce计算过程30
2.1.2基于MapReduce的计算举例30数据科学与大数据技术导论目录2.2基于Hadoop的分布计算30
2.2.1作业服务器31
2.2.2计算流程31
2.2.3MapReduce程序的执行过程33
2.3MapReduce程序设计分析35
2.3.1MapReduce模型编程方法35
2.3.2单词计数程序设计36
2.4YARN大数据处理平台40
2.4.1Hadoop 1.0版本的缺点40
2.4.2轻量级弹性计算平台41
2.4.3基本概念与术语42
2.4.4MapReduce框架43
2.4.5编程模型44
2.4.6YARN基本架构与工作流程45
2.5Spark大数据处理框架48
2.5.1Spark的主要特点48
2.5.2软件栈48
2.5.3核心概念50
2.5.4RDD51
本章小结58
第3章大数据采集与存储管理/59
知识结构59
3.1大数据采集概述59
3.1.1大数据采集的定义与特点60
3.1.2大数据采集的挑战60
3.1.3传统数据采集与大数据采集的比较61
3.2大数据采集的方法61
3.2.1传感器采集数据61
3.2.2系统日志采集62
3.2.3数据库采集系统62
3.2.4网页数据采集62
3.3大数据存储架构与系统79
3.3.1数据层79
3.3.2分布式文件系统80
3.4基于大数据的数据库系统82
3.4.1大数据存储管理技术82
3.4.2大数据库83
3.4.3大数据存储管理的核心算法88
3.5HBase数据库94
3.5.1HBase概述94
3.5.2HBase的数据模型97
3.5.3HBase的逻辑实体98
3.5.4HBase的工作原理100
3.6Hive数据仓库100
3.6.1Hive主要功能101
3.6.2Hive的数据单元与数据类型101
3.6.3Hive的特性102
3.6.4Hive应用举例102
3.6.5HBase与Hive的比较102
本章小结103
第4章大数据抽取/104
知识结构104
4.1大数据抽取概述105
4.1.1数据抽取的定义105
4.1.2数据抽取程序105
4.1.3数据抽取方式106
4.2增量数据抽取技术106
4.2.1增量数据抽取的特点与策略106
4.2.2基于时间戳的增量数据抽取方式107
4.2.3全表比对抽取方法107
4.3数据源109
4.3.1公开数据库109
4.3.2利用网络爬虫获得数据110
4.3.3数据交易平台110
4.3.4网络指数110
4.4基于Hadoop平台的大数据抽取110
4.4.1将数据导入Hadoop平台110
4.4.2将数据从CSV文件导入Hive表111
4.4.3将关系数据导入HDFS的方法114
4.4.4CSV文件的读取和写入119
4.4.5Flume获取日志文件123
4.5大数据抽取的应用126
4.5.1应用实例126
4.5.2非关系数据库中的数据抽取软件简介126
本章小结128
第5章大数据清洗/129
知识结构129
5.1数据质量与数据清洗129
5.1.1数据质量129
5.1.2数据质量提高技术132
5.1.3数据清洗算法的标准135
5.1.4数据清洗的过程与模型136
5.2不完整数据清洗136
5.2.1基本方法136
5.2.2基于kNN近邻缺失数据的填充算法138
5.3异常数据清洗140
5.3.1异常值的检测141
5.3.2统计学方法141
5.3.3基于邻近度的离群点检测145
5.4重复数据清洗146
5.4.1使用字段相似度识别重复值算法146
5.4.2快速去重算法147
5.5文本清洗149
5.5.1字符串匹配算法149
5.5.2文本相似度度量方法153
5.6数据清洗的实现157
5.6.1数据清洗的步骤157
5.6.2数据清洗程序158
本章小结160
第6章数据转换/161
知识结构161
6.1基本的数据转换161
6.1.1对数转换161
6.1.2平方根转换163
6.1.3平方转换163
6.1.4倒数变换163
6.2数据平滑163
6.2.1移动平均法164
6.2.2指数平滑法166
6.2.3分箱平滑法171
6.3数据规范化172
6.3.1*小*大规范化方法173
6.3.2z分数规范化方法173
6.3.3小数定标规范化方法174
6.3.4数据规范化程序174
本章小结176
第7章大数据约简/177
知识结构177
7.1特征约简178
7.1.1特征构造178
7.1.2特征提取179
7.1.3特征选择180
7.2样本约简187
7.2.1随机抽样187
7.2.2系统抽样187
7.2.3分层抽样187
7.3数据立方体188
7.3.1多维数据模型188
7.3.2多维数据模型的模式190
7.3.3数据立方体聚集191
7.4属性子集选择算法192
7.4.1逐步向前选择属性193
7.4.2逐步向后删除属性193
7.4.3混合式选择193
7.4.4判定树归纳193
7.5数值约简194
7.5.1有参数值约简194
7.5.2无参数值约简195
7.6概念分层与数值离散化196
7.6.1概念分层196
7.6.2数值离散化方法198
本章小结202
第8章大数据集成/203
知识结构203
8.1数据集成技术概述203
8.1.1数据集成的概念与相关问题204
8.1.2数据集成的核心问题206
8.1.3数据集成的分类207
8.2数据迁移209
8.2.1在组织内部移动数据210
8.2.2非结构化数据集成211
8.2.3将处理移动到数据端212
8.3数据集成模式213
8.3.1联邦数据库集成模式213
8.3.2中间件集成模式214
8.3.3数据仓库集成模式215
8.4数据集成系统216
8.4.1全局模式217
8.4.2语义映射217
8.4.3查询重写218
8.5数据集成系统的构建218
8.5.1模式之间映射关系的生成218
8.5.2适应性查询219
8.5.3XML219
8.5.4P2P数据管理219
本章小结220
第9章大数据分析/221
知识结构221
9.1大数据分析概述221
9.1.1几种常用的大数据分析方法222
9.1.2数字特征223
9.1.3统计方法229
9.1.4常用的抽样组织形式230
9.2相关分析230
9.2.1相关系数231
9.2.2相关分析的任务231
9.2.3相关分析的过程232
9.3回归分析233
9.3.1回归分析过程233
9.3.2回归分析类型233
9.3.3回归模型与应用中的问题233
9.4判别分析234
9.4.1判别函数234
9.4.2判别分析方法235
9.5显著性检验238
9.5.1显著性检验的基本思想238
9.5.2检验步骤与检验方法239
9.6主成分分析240
9.6.1主成分分析原理240
9.6.2主成分分析方法举例240
9.6.3主成分分析Python程序243
本章小结246
第10章大数据挖掘/247
知识结构247
10.1大数据挖掘概述247
10.1.1数据统计分析与数据挖掘的主要区别248
10.1.2数据挖掘的定义与相关概念248
10.1.3数据挖掘的理论基础248
10.1.4基于数据存储方式的数据挖掘249
10.2关联规则251
10.2.1关联规则生成描述251
10.2.2频繁项目集生成算法252
10.3分类256
10.3.1分类的定义与典型的分类算法256
10.3.2分类的基本步骤258
10.3.3k近邻分类算法258
10.4聚类方法260
10.4.1聚类的概念260
10.4.2聚类算法的特点261
10.4.3聚类算法分类262
10.4.4距离与相似性的度量263
10.4.5划分聚类方法264
10.4.6层次聚类方法267
10.5序列模式268
10.5.1时间序列268
10.5.2时间序列挖掘的常用方法268
10.5.3序列模式挖掘269
10.6非结构化文本数据挖掘271
10.6.1用户反馈文本271
10.6.2用户反馈文本挖掘过程272
10.6.3文本的自然语言处理274
本章小结275
第11章数据可视化与可视分析/276
知识结构276
11.1数据可视化概述276
11.1.1数据可视化概念277
11.1.2感知与认知277
11.1.3可视化突出点与设计原则279
11.2大数据可视化工具与软件280
11.2.1Matplotlib简介281
11.2.2多图形和多坐标系284
11.2.3创建子图285
11.3绘制图形286
11.3.1折线绘制286
11.3.2散点图289
11.3.3泡泡图绘制290
11.3.4条形图绘制293
11.3.5直方图绘制295
11.3.6饼图绘制297
11.3.7轮廓图绘制300
11.3.8雷达图300
11.4大数据可视化302
11.4.1文本可视化302
11.4.2网络(图)可视化303
11.4.3时空数据可视化305
11.4.4多维数据可视化306
11.5大数据可视分析307
11.5.1可视分析的理论基础308
11.5.2大数据可视分析技术312
本章小结315
参考文献/316
作者简介
教授,博士生导师 。研究领域为分布计算、计算智能、大数据技术等。中国石油大学(北京)计算机科学与技术系创始系主任。获北京市教学名师奖。中国工程教育认证专家。
-
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
落洼物语
¥8.7¥28.0 -
中国当代文学名篇选读
¥19.1¥53.0 -
中医基础理论
¥50.7¥59.0 -
北大人文课(平装)
¥13.9¥45.0 -
外国教育史-第2版
¥24.4¥40.0 -
宪法-第二版
¥12.2¥29.0 -
当代中国政府与政治 第二版
¥57.8¥68.0 -
EPLAN电气设计
¥29.9¥39.8 -
闯进数学世界――探秘历史名题
¥21.3¥32.8 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
金融学
¥29.9¥49.0 -
计算机操作系统教程(第4版)(清华大学计算机系列教材)
¥31.9¥49.0 -
三国史
¥27.5¥50.0 -
飞机总体设计
¥46.8¥78.0 -
古代汉语(第四册)
¥16.1¥35.0 -
编辑审稿实务教程
¥35.1¥45.0 -
管理学:原理与方法(第7版)(博学.大学管理类)/周三多
¥30.9¥49.0 -
(平装)北大必修课:北大口才课
¥12.2¥45.0