×

数据科学与大数据技术导论

包邮数据科学与大数据技术导论

1星价 ¥41.1 (7.0折)

2星价￥41.1 定价￥59.0

在书中重启人生|阅读盲盒42.3包邮

读书月第二场|88元任选10本，满10本送冰箱贴

作者：陈明

出版社：清华大学出版社

本类榜单：教材

分类：教材 > 研究生/本科/专科教材 > 工学

暂无评论

小人物的命运残章：现实主义小说精选

图文详情

ISBN：9787302566762
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：其他
页数：328
出版时间：2021-06-01
条形码：9787302566762 ; 978-7-302-56676-2

本书特色

本书主要介绍大数据的基本概念和技术，是数据科学与大数据专业的**门专业基础教材。数据科学与大数据专业的导论性专业基础教材。

内容简介

大数据技术凝集了多学科的研究成果，是一门多学科的交叉融合技术。随着科学技术的发展，大数据技术发展更为迅速，应用更为深入与广泛，并凸显其巨大潜力和应用价值。 “数据科学与大数据技术导论”是数据科学与大数据技术专业的门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。本书主要介绍数据科学与大数据技术的基本知识。全书共分11章，包括数据科学与大数据技术概述、Hadoop大数据处理平台、大数据采集与存储管理、大数据抽取、大数据清洗、数据转换、大数据约简、大数据集成、大数据分析、大数据挖掘、数据可视化与可视分析等内容。本书语言精练，内容完整，案例丰富，可作为高等院校“数据科学与大数据技术导论”课程的教材，也可作为学习数据科学与大数据技术人员的参考书。

目录

目录

第1章数据科学与大数据技术概述/1

知识结构1

1.1数据科学简介1

1.1.1数据科学的产生与发展1

1.1.2数据科学的定义与方法2

1.1.3数据科学的知识体系6

1.1.4数据科学、数据技术与数据工程7

1.2大数据的生态环境与概念8

1.2.1大数据的生态环境8

1.2.2大数据的概念9

1.3大数据处理周期12

1.3.1大数据处理的全过程12

1.3.2大数据技术的特征13

1.4大数据处理模式13

1.4.1离线处理模式14

1.4.2在线处理模式14

1.4.3交互处理模式19

1.5科学研究第四范式19

1.5.1科学研究范式产生与发展19

1.5.2数据密集型科学研究第四范式20

1.6大数据应用25

1.6.1大数据应用趋势25

1.6.2大数据应用评价与应用实例26

本章小结28

第2章Hadoop大数据处理平台/29

知识结构29

2.1MapReduce分布编程模型29

2.1.1MapReduce计算过程30

2.1.2基于MapReduce的计算举例30数据科学与大数据技术导论目录2.2基于Hadoop的分布计算30

2.2.1作业服务器31

2.2.2计算流程31

2.2.3MapReduce程序的执行过程33

2.3MapReduce程序设计分析35

2.3.1MapReduce模型编程方法35

2.3.2单词计数程序设计36

2.4YARN大数据处理平台40

2.4.1Hadoop 1.0版本的缺点40

2.4.2轻量级弹性计算平台41

2.4.3基本概念与术语42

2.4.4MapReduce框架43

2.4.5编程模型44

2.4.6YARN基本架构与工作流程45

2.5Spark大数据处理框架48

2.5.1Spark的主要特点48

2.5.2软件栈48

2.5.3核心概念50

2.5.4RDD51

本章小结58

第3章大数据采集与存储管理/59

知识结构59

3.1大数据采集概述59

3.1.1大数据采集的定义与特点60

3.1.2大数据采集的挑战60

3.1.3传统数据采集与大数据采集的比较61

3.2大数据采集的方法61

3.2.1传感器采集数据61

3.2.2系统日志采集62

3.2.3数据库采集系统62

3.2.4网页数据采集62

3.3大数据存储架构与系统79

3.3.1数据层79

3.3.2分布式文件系统80

3.4基于大数据的数据库系统82

3.4.1大数据存储管理技术82

3.4.2大数据库83

3.4.3大数据存储管理的核心算法88

3.5HBase数据库94

3.5.1HBase概述94

3.5.2HBase的数据模型97

3.5.3HBase的逻辑实体98

3.5.4HBase的工作原理100

3.6Hive数据仓库100

3.6.1Hive主要功能101

3.6.2Hive的数据单元与数据类型101

3.6.3Hive的特性102

3.6.4Hive应用举例102

3.6.5HBase与Hive的比较102

本章小结103

第4章大数据抽取/104

知识结构104

4.1大数据抽取概述105

4.1.1数据抽取的定义105

4.1.2数据抽取程序105

4.1.3数据抽取方式106

4.2增量数据抽取技术106

4.2.1增量数据抽取的特点与策略106

4.2.2基于时间戳的增量数据抽取方式107

4.2.3全表比对抽取方法107

4.3数据源109

4.3.1公开数据库109

4.3.2利用网络爬虫获得数据110

4.3.3数据交易平台110

4.3.4网络指数110

4.4基于Hadoop平台的大数据抽取110

4.4.1将数据导入Hadoop平台110

4.4.2将数据从CSV文件导入Hive表111

4.4.3将关系数据导入HDFS的方法114

4.4.4CSV文件的读取和写入119

4.4.5Flume获取日志文件123

4.5大数据抽取的应用126

4.5.1应用实例126

4.5.2非关系数据库中的数据抽取软件简介126

本章小结128

第5章大数据清洗/129

知识结构129

5.1数据质量与数据清洗129

5.1.1数据质量129

5.1.2数据质量提高技术132

5.1.3数据清洗算法的标准135

5.1.4数据清洗的过程与模型136

5.2不完整数据清洗136

5.2.1基本方法136

5.2.2基于kNN近邻缺失数据的填充算法138

5.3异常数据清洗140

5.3.1异常值的检测141

5.3.2统计学方法141

5.3.3基于邻近度的离群点检测145

5.4重复数据清洗146

5.4.1使用字段相似度识别重复值算法146

5.4.2快速去重算法147

5.5文本清洗149

5.5.1字符串匹配算法149

5.5.2文本相似度度量方法153

5.6数据清洗的实现157

5.6.1数据清洗的步骤157

5.6.2数据清洗程序158

本章小结160

第6章数据转换/161

知识结构161

6.1基本的数据转换161

6.1.1对数转换161

6.1.2平方根转换163

6.1.3平方转换163

6.1.4倒数变换163

6.2数据平滑163

6.2.1移动平均法164

6.2.2指数平滑法166

6.2.3分箱平滑法171

6.3数据规范化172

6.3.1*小*大规范化方法173

6.3.2z分数规范化方法173

6.3.3小数定标规范化方法174

6.3.4数据规范化程序174

本章小结176

第7章大数据约简/177

知识结构177

7.1特征约简178

7.1.1特征构造178

7.1.2特征提取179

7.1.3特征选择180

7.2样本约简187

7.2.1随机抽样187

7.2.2系统抽样187

7.2.3分层抽样187

7.3数据立方体188

7.3.1多维数据模型188

7.3.2多维数据模型的模式190

7.3.3数据立方体聚集191

7.4属性子集选择算法192

7.4.1逐步向前选择属性193

7.4.2逐步向后删除属性193

7.4.3混合式选择193

7.4.4判定树归纳193

7.5数值约简194

7.5.1有参数值约简194

7.5.2无参数值约简195

7.6概念分层与数值离散化196

7.6.1概念分层196

7.6.2数值离散化方法198

本章小结202

第8章大数据集成/203

知识结构203

8.1数据集成技术概述203

8.1.1数据集成的概念与相关问题204

8.1.2数据集成的核心问题206

8.1.3数据集成的分类207

8.2数据迁移209

8.2.1在组织内部移动数据210

8.2.2非结构化数据集成211

8.2.3将处理移动到数据端212

8.3数据集成模式213

8.3.1联邦数据库集成模式213

8.3.2中间件集成模式214

8.3.3数据仓库集成模式215

8.4数据集成系统216

8.4.1全局模式217

8.4.2语义映射217

8.4.3查询重写218

8.5数据集成系统的构建218

8.5.1模式之间映射关系的生成218

8.5.2适应性查询219

8.5.3XML219

8.5.4P2P数据管理219

本章小结220

第9章大数据分析/221

知识结构221

9.1大数据分析概述221

9.1.1几种常用的大数据分析方法222

9.1.2数字特征223

9.1.3统计方法229

9.1.4常用的抽样组织形式230

9.2相关分析230

9.2.1相关系数231

9.2.2相关分析的任务231

9.2.3相关分析的过程232

9.3回归分析233

9.3.1回归分析过程233

9.3.2回归分析类型233

9.3.3回归模型与应用中的问题233

9.4判别分析234

9.4.1判别函数234

9.4.2判别分析方法235

9.5显著性检验238

9.5.1显著性检验的基本思想238

9.5.2检验步骤与检验方法239

9.6主成分分析240

9.6.1主成分分析原理240

9.6.2主成分分析方法举例240

9.6.3主成分分析Python程序243

本章小结246

第10章大数据挖掘/247

知识结构247

10.1大数据挖掘概述247

10.1.1数据统计分析与数据挖掘的主要区别248

10.1.2数据挖掘的定义与相关概念248

10.1.3数据挖掘的理论基础248

10.1.4基于数据存储方式的数据挖掘249

10.2关联规则251

10.2.1关联规则生成描述251

10.2.2频繁项目集生成算法252

10.3分类256

10.3.1分类的定义与典型的分类算法256

10.3.2分类的基本步骤258

10.3.3k近邻分类算法258

10.4聚类方法260

10.4.1聚类的概念260

10.4.2聚类算法的特点261

10.4.3聚类算法分类262

10.4.4距离与相似性的度量263

10.4.5划分聚类方法264

10.4.6层次聚类方法267

10.5序列模式268

10.5.1时间序列268

10.5.2时间序列挖掘的常用方法268

10.5.3序列模式挖掘269

10.6非结构化文本数据挖掘271

10.6.1用户反馈文本271

10.6.2用户反馈文本挖掘过程272

10.6.3文本的自然语言处理274

本章小结275

第11章数据可视化与可视分析/276

知识结构276

11.1数据可视化概述276

11.1.1数据可视化概念277

11.1.2感知与认知277

11.1.3可视化突出点与设计原则279

11.2大数据可视化工具与软件280

11.2.1Matplotlib简介281

11.2.2多图形和多坐标系284

11.2.3创建子图285

11.3绘制图形286

11.3.1折线绘制286

11.3.2散点图289

11.3.3泡泡图绘制290

11.3.4条形图绘制293

11.3.5直方图绘制295

11.3.6饼图绘制297

11.3.7轮廓图绘制300

11.3.8雷达图300

11.4大数据可视化302

11.4.1文本可视化302

11.4.2网络（图）可视化303

11.4.3时空数据可视化305

11.4.4多维数据可视化306

11.5大数据可视分析307

11.5.1可视分析的理论基础308

11.5.2大数据可视分析技术312

本章小结315

参考文献/316

展开全部

作者简介

教授，博士生导师。研究领域为分布计算、计算智能、大数据技术等。中国石油大学（北京）计算机科学与技术系创始系主任。获北京市教学名师奖。中国工程教育认证专家。

本类五星书

更多>>

浏览历史

本类畅销

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格（不含优惠券部分），仅供参考，未必等同于实际到手价。

确定

客服

收藏

购物车

加入购物车

快速 导航