大数据技术基础 第2版
1星价
¥45.4
(7.6折)
2星价¥45.4
定价¥59.8
图文详情
- ISBN:9787302667308
- 装帧:70g胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:332
- 出版时间:2024-08-01
- 条形码:9787302667308 ; 978-7-302-66730-8
本书特色
本书全面系统地介绍了大数据基础知识和相关技术。
融会贯通大数据概念与大数据技术及应用,配套应用案例培养大数据思维及计算思维,构建数据科学与大数据技术专业知识体系,便于读者更好理解和掌握大数据技术及应用。
内容简介
本书系统介绍了大数据基础知识和相关技术,全书分为大数据基础、大数据存储与管理篇、大数据采集与预处理、大数据分析与挖掘、大数据平台Hadoop实践与应用案例5篇,共17章,主要内容包括大数据基本概念、大数据平台Hadoop基础、大数据存储与管理基本概念、大数据分布式文件系统HDFS、大数据分布式数据库系统HBase、大数据分布式数据仓库系统Hive、大数据采集与预处理技术、大数据采集工具、大数据计算模式、大数据MapReduce计算模型、大数据Spark计算模型、大数据Flink计算模型、大数据MapReduce基础算法、大数据挖掘算法、Hadoop大数据平台实践、开敞式码头系泊缆力预测应用案例以及曙光XData大数据平台及应用案例。全书提供了大量应用实例,且大多章后附有习题。本书特色在于融会贯通大数据基本概念与大数据技术及应用,很好地将大数据概念、技术及应用融合在一起,便于读者更好地理解大数据基本概念,更快掌握大数据前沿技术及其应用。
本书适合作为高等院校计算机、软件工程、信息管理等相关专业的本科生及研究生大数据技术课程的教学用书,也可作为相关T工程技术人员的参考用书。
目录
第1篇 大数据基础
第1章 大数据基本概念……………………………………………………………………… 3
1.1 大数据时代 ………………………………………………………………………… 3
1.1.1 大数据有多大……………………………………………………………… 3
1.1.2 大数据的产生……………………………………………………………… 4
1.1.3 大数据的发展历程………………………………………………………… 5
1.1.4 大数据对科学研究的影响………………………………………………… 7
1.1.5 大数据对思维模式的影响 ……………………………………………… 10
1.2 大数据的定义与特征……………………………………………………………… 11
1.2.1 大数据的定义 …………………………………………………………… 11
1.2.2 大数据的数据特征 ……………………………………………………… 11
1.3 大数据的应用……………………………………………………………………… 13
1.3.1 大数据在科研领域的应用 ……………………………………………… 13
1.3.2 大数据在交通领域的应用 ……………………………………………… 13
1.3.3 大数据在通信领域的应用 ……………………………………………… 13
1.3.4 大数据在医疗领域的应用 ……………………………………………… 13
1.3.5 大数据在金融领域的应用 ……………………………………………… 13
1.3.6 大数据在制造领域的应用 ……………………………………………… 13
1.3.7 大数据在体育领域的应用 ……………………………………………… 14
1.3.8 大数据在个性化生活领域的应用 ……………………………………… 14
1.3.9 大数据在安全领域的应用 ……………………………………………… 14
1.4 大数据框架体系…………………………………………………………………… 14
1.4.1 大数据基础设施层 ……………………………………………………… 14
1.4.2 大数据采集层 …………………………………………………………… 14
1.4.3 大数据存储层 …………………………………………………………… 15
1.4.4 大数据处理层 …………………………………………………………… 15
1.4.5 大数据交互展示层 ……………………………………………………… 15
Ⅷ
1.4.6 大数据应用层 …………………………………………………………… 15
1.5 大数据关键技术…………………………………………………………………… 15
1.5.1 数据采集与预处理技术 ………………………………………………… 15
1.5.2 数据存储和管理技术 …………………………………………………… 16
1.5.3 数据分析与挖掘技术 …………………………………………………… 16
1.5.4 数据可视化技术 ………………………………………………………… 16
1.5.5 数据安全和隐私保护技术 ……………………………………………… 17
1.6 大数据支撑技术…………………………………………………………………… 18
1.6.1 云计算 …………………………………………………………………… 18
1.6.2 物联网 …………………………………………………………………… 21
1.6.3 人工智能 ………………………………………………………………… 25
习题 ……………………………………………………………………………………… 27
第2章 大数据平台Hadoop基础 ………………………………………………………… 28
2.1 大数据平台 Hadoop概述 ………………………………………………………… 28
2.1.1 Hadoop简介 …………………………………………………………… 28
2.1.2 Hadoop项目起源 ……………………………………………………… 28
2.1.3 Hadoop发展历程 ……………………………………………………… 29
2.1.4 Hadoop特性 …………………………………………………………… 30
2.1.5 Hadoop主要用途 ……………………………………………………… 30
2.2 大数据平台 Hadoop原理 ………………………………………………………… 31
2.2.1 分布式计算原理 ………………………………………………………… 31
2.2.2 MapReduce原理 ………………………………………………………… 33
2.2.3 Yarn原理………………………………………………………………… 33
2.3 大数据平台 Hadoop组件 ………………………………………………………… 37
2.3.1 HDFS组件 ……………………………………………………………… 38
2.3.2 MapReduce组件 ………………………………………………………… 38
2.3.3 ZooKeeper组件 ………………………………………………………… 39
2.3.4 Yarn组件………………………………………………………………… 39
2.3.5 HBase组件 ……………………………………………………………… 39
2.3.6 Hive组件 ………………………………………………………………… 40
2.3.7 Spark组件 ……………………………………………………………… 40
2.3.8 Mahout组件 …………………………………………………………… 40
2.3.9 Flume组件 ……………………………………………………………… 41
2.3.10 Sqoop组件 ……………………………………………………………… 41
2.3.11 Kafka组件 ……………………………………………………………… 42
2.3.12 Pig组件 ………………………………………………………………… 42
2.3.13 Ambari组件 …………………………………………………………… 42
2.3.14 Tez组件 ………………………………………………………………… 42
Ⅸ
2.3.15 Common组件 ………………………………………………………… 43 习题 ……………………………………………………………………………………… 43
第2篇 大数据存储与管理
第3章 大数据存储与管理基本概念 ……………………………………………………… 47
3.1 大数据的数据类型………………………………………………………………… 47
3.1.1 结构化数据 ……………………………………………………………… 47
3.1.2 半结构化数据 …………………………………………………………… 48
3.1.3 非结构化数据 …………………………………………………………… 48
3.2 数据管理技术的发展……………………………………………………………… 48
3.2.1 文件系统阶段 …………………………………………………………… 48
3.2.2 数据库系统阶段 ………………………………………………………… 49
3.2.3 数据仓库阶段 …………………………………………………………… 52
3.2.4 分布式系统阶段 ………………………………………………………… 54
3.3 分布式系统基础理论……………………………………………………………… 56
3.3.1 CAP理论 ………………………………………………………………… 56
3.3.2 BASE 思想 ……………………………………………………………… 57
3.4 NoSQL 数据库 …………………………………………………………………… 58
3.4.1 NoSQL 数据库的兴起…………………………………………………… 58
3.4.2 NoSQL 数据库与关系数据库的比较…………………………………… 59
3.4.3 NoSQL 数据库的4大类型……………………………………………… 60
3.5 大数据存储与管理技术…………………………………………………………… 62
3.5.1 分布式存储技术 ………………………………………………………… 62
3.5.2 虚拟化技术 ……………………………………………………………… 64
3.5.3 云存储技术 ……………………………………………………………… 65
习题 ……………………………………………………………………………………… 67
第4章 大数据分布式文件系统HDFS …………………………………………………… 68
4.1 HDFS概述………………………………………………………………………… 68
4.1.1 HDFS简介 ……………………………………………………………… 68
4.1.2 HDFS设计特点 ………………………………………………………… 70
4.2 HDFS工作原理…………………………………………………………………… 74
4.2.1 HDFS体系结构 ………………………………………………………… 74
4.2.2 HDFS工作组件 ………………………………………………………… 75
4.3 HDFS工作流程…………………………………………………………………… 76
4.3.1 读数据的过程 …………………………………………………………… 77
4.3.2 写数据的过程 …………………………………………………………… 77
4.4 HDFS基本操作…………………………………………………………………… 78
Ⅹ
4.4.1 HDFS文件操作 ………………………………………………………… 78
4.4.2 HDFS管理命令 ………………………………………………………… 81
4.5 HDFS编程接口…………………………………………………………………… 82
4.5.1 HDFS常用JavaAPI…………………………………………………… 82
4.5.2 HDFSAPI编程实例 …………………………………………………… 83
习题 ……………………………………………………………………………………… 85
第5章 大数据分布式数据库系统HBase ………………………………………………… 86
5.1 HBase概述 ……………………………………………………………………… 86
5.1.1 HBase简介 ……………………………………………………………… 86
5.1.2 HBase特性 ……………………………………………………………… 86
5.1.3 HBase与传统关系数据库对比 ………………………………………… 87
5.1.4 HBase应用场景 ………………………………………………………… 88
5.2 HBase数据模型 ………………………………………………………………… 88
5.2.1 HBase数据模型术语 …………………………………………………… 88
5.2.2 HBase数据逻辑模型 …………………………………………………… 89
5.2.3 HBase数据物理模型 …………………………………………………… 90
5.3 HBase工作原理 ………………………………………………………………… 90
5.3.1 HBase体系结构 ………………………………………………………… 90
5.3.2 HBase工作组件 ………………………………………………………… 91
5.4 HBase安装 ……………………………………………………………………… 92
5.4.1 下载 HBase ……………………………………………………………… 92
5.4.2 安装 HBase ……………………………………………………………… 94
5.4.3 启动 HBase ……………………………………………………………… 97
5.4.4 关闭 HBase ……………………………………………………………… 98
5.5 HBase操作命令 ………………………………………………………………… 98
5.5.1 HBase表操作 …………………………………………………………… 98
5.5.2 HBase数据操作 ……………………………………………………… 100
5.6 HBase编程接口 ………………………………………………………………… 100
5.6.1 HBase常用JavaAPI ………………………………………………… 100
5.6.2 HBaseAPI编程实例 ………………………………………………… 103
习题……………………………………………………………………………………… 111
第6章 大数据分布式数据仓库系统Hive ……………………………………………… 113
6.1 Hive概述 ………………………………………………………………………… 113
6.1.1 Hive特性 ……………………………………………………………… 113
6.1.2 Hive工作原理 ………………………………………………………… 114
6.1.3 Hive执行流程 ………………………………………………………… 114
6.2 Hive数据类型及数据模型 ……………………………………………………… 115
Ⅺ
6.2.1 Hive数据类型 ………………………………………………………… 115
6.2.2 Hive数据模型 ………………………………………………………… 115
6.3 安装 Hive ……………………………………………………………………… 117
6.3.1 下载 Hive ……………………………………………………………… 117
6.3.2 安装配置 Hive ………………………………………………………… 117
6.3.3 安装 MySQL …………………………………………………………… 119
6.3.4 配置 MySQL 允许 Hive接入 ………………………………………… 120
6.3.5 启动 Hive ……………………………………………………………… 120
6.3.6 关闭 Hive ……………………………………………………………… 121
6.4 HiveSQL ……………………………………………………………………… 121
6.4.1 DDL 语句 ……………………………………………………………… 121
6.4.2 DML 语句 ……………………………………………………………… 122
6.4.3 DQL 语句 ……………………………………………………………… 123
6.4.4 Hive操作实例 ………………………………………………………… 123
6.5 Hive访问接口 …………………………………………………………………… 125
6.5.1 HiveCLI访问接口 …………………………………………………… 125
6.5.2 JDBC 访问接口 ………………………………………………………… 126 习题……………………………………………………………………………………… 126
第3篇 大数据采集与预处理
第7章 大数据采集与预处理技术………………………………………………………… 129
7.1 数据抽取、转换、加载技术 ……………………………………………………… 129
7.1.1 ETL 概述 ……………………………………………………………… 129
7.1.2 数据抽取………………………………………………………………… 129
7.1.3 数据转换………………………………………………………………… 130
7.1.4 数据加载………………………………………………………………… 131
7.1.5 ETL 工具 ……………………………………………………………… 132
7.2 数据爬虫技术 …………………………………………………………………… 133
7.2.1 爬虫流程………………………………………………………………… 133
7.2.2 爬虫分类………………………………………………………………… 134
7.2.3 大数据爬虫技术………………………………………………………… 136
7.3 数据预处理技术 ………………………………………………………………… 138
7.3.1 数据清理………………………………………………………………… 139
7.3.2 数据集成………………………………………………………………… 140
7.3.3 数据变换………………………………………………………………… 140
7.3.4 数据归约………………………………………………………………… 142 习题……………………………………………………………………………………… 142
Ⅻ
第8章 大数据采集工具…………………………………………………………………… 143
8.1 Sqoop关系型大数据采集系统 ………………………………………………… 143
8.1.1 Sqoop简介 ……………………………………………………………… 143
8.1.2 Sqoop工作原理 ………………………………………………………… 144
8.2 Flume日志大数据采集系统 …………………………………………………… 150
8.2.1 Flume简介……………………………………………………………… 150
8.2.2 Flume工作原理………………………………………………………… 151
8.2.3 Flume的配置与启动…………………………………………………… 155
8.3 Kafka消息队列大数据采集系统 ……………………………………………… 156
8.3.1 Kafka简介 ……………………………………………………………… 156
8.3.2 Kafka工作原理 ………………………………………………………… 156
8.3.3 Kafka的配置与启动 …………………………………………………… 158
8.4 Nutch分布式大数据爬虫系统 ………………………………………………… 159
8.4.1 Nutch简介 ……………………………………………………………… 159
8.4.2 Nutch工作原理 ………………………………………………………… 160 习题……………………………………………………………………………………… 162
第4篇 大数据分析与挖掘
第9章 大数据计算模式…………………………………………………………………… 165
9.1 大数据批处理 …………………………………………………………………… 165
9.1.1 大数据批处理概述……………………………………………………… 165
9.1.2 大数据批处理常用组件………………………………………………… 166
9.2 大数据查询分析计算 …………………………………………………………… 166
9.2.1 大数据查询分析计算概述……………………………………………… 166
9.2.2 大数据查询分析计算组件……………………………………………… 167
9.3 大数据流计算 …………………………………………………………………… 168
9.3.1 大数据流计算概述……………………………………………………… 168
9.3.2 大数据流计算组件……………………………………………………… 169
9.4 大数据迭代计算 ………………………………………………………………… 169
9.4.1 大数据迭代计算概述…………………………………………………… 169
9.4.2 迭代计算组件…………………………………………………………… 170
9.5 大数据图计算 …………………………………………………………………… 171
9.5.1 大数据图计算概述……………………………………………………… 171
9.5.2 图计算组件……………………………………………………………… 172 习题……………………………………………………………………………………… 173
??
第10章 大数据MapReduce计算模型 …………………………………………………… 174
10.1 MapReduce概述 ……………………………………………………………… 174
10.1.1 MapReduce简介 …………………………………………………… 174
10.1.2 MapReduce由来 …………………………………………………… 175
10.1.3 MapReduce主要功能 ……………………………………………… 175
10.1.4 MapReduce技术特征 ……………………………………………… 175
10.2 MapReduce模型框架 ………………………………………………………… 176
10.2.1 MapReduce设计思想 ……………………………………………… 176
10.2.2 MapReduce模型架构 ……………………………………………… 177
10.3 MapReduce数据处理过程 …………………………………………………… 178
10.3.1 MapReduce运行原理 ……………………………………………… 179
10.3.2 数据输入输出流程 ………………………………………………… 180
10.4 MapReduce程序执行过程 …………………………………………………… 181
10.4.1 作业提交 …………………………………………………………… 182
10.4.2 作业初始化 ………………………………………………………… 183
10.4.3 作业分配 …………………………………………………………… 183
10.4.4 任务执行 …………………………………………………………… 184
10.4.5 过程和状态更新 …………………………………………………… 184
10.4.6 作业完成 …………………………………………………………… 184
10.5 MapReduce编程接口 ………………………………………………………… 185
10.5.1 数据读入 …………………………………………………………… 185
10.5.2 Mapper类和 Reducer类…………………………………………… 187
10.5.3 数据处理 …………………………………………………………… 187
10.5.4 数据输出 …………………………………………………………… 188
10.6 MapReduce实例分析 ………………………………………………………… 189
10.6.1 WordCountMapReduce设计 …………………………………… 190
10.6.2 WordCount编程实现 ……………………………………………… 191
习题 …………………………………………………………………………………… 194
第11章 大数据Spark计算模型 ………………………………………………………… 195
11.1 Spark概述 …………………………………………………………………… 195
11.1.1 Spark产生 ………………………………………………………… 195
11.1.2 Spark的相关概念及其组件 ……………………………………… 197
11.1.3 Spark特性 ………………………………………………………… 199
11.2 Spark工作原理 ……………………………………………………………… 200
11.2.1 RDD 原理 …………………………………………………………… 200
11.2.2 Spark工作流程 …………………………………………………… 202
11.2.3 Spark集群架构及运行模式 ……………………………………… 204
??
11.2.4 SparkStreaming工作原理………………………………………… 209
11.3 Spark访问接口 ……………………………………………………………… 210
11.3.1 Spark访问接口概述 ……………………………………………… 210
11.3.2 SparkContext访问接口 …………………………………………… 210
11.3.3 RDD 访问接口……………………………………………………… 211
11.4 Spark实例分析 ……………………………………………………………… 212
11.4.1 SparkShellWordCount编程实现………………………………… 212
11.4.2 Scala WordCount编程实现 ……………………………………… 213
11.4.3 Java WordCount编程实现 ………………………………………… 214
习题 …………………………………………………………………………………… 216
第12章 大数据Flink计算模型 ………………………………………………………… 217
12.1 Flink概述 …………………………………………………………………… 217
12.1.1 Flink简介 ………………………………………………………… 217
12.1.2 Flink的由来 ……………………………………………………… 217
12.1.3 Flink流处理 ……………………………………………………… 217
12.1.4 Flink的核心特性 ………………………………………………… 219
12.2 Flink工作原理 ……………………………………………………………… 219
12.2.1 Flink的计算框架 ………………………………………………… 219
12.2.2 Flink的体系结构 ………………………………………………… 220
12.2.3 Flink的运行架构 ………………………………………………… 221
12.3 Flink编程接口 ……………………………………………………………… 221
12.3.1 Flink的编程模型 ………………………………………………… 221
12.3.2 Flink的编程结构 ………………………………………………… 222
12.4 Flink实例分析 ……………………………………………………………… 223
12.4.1 Scala WordCount编程实现 ……………………………………… 223
12.4.2 Java WordCount编程实现 ………………………………………… 223 习题 …………………………………………………………………………………… 225
第13章 大数据MapReduce基础算法 …………………………………………………… 226
13.1 关系代数运算 ………………………………………………………………… 226
13.1.1 关系代数运算规则 ………………………………………………… 226
13.1.2 关系代数运算的 MapReduce设计与实现………………………… 228
13.2 矩阵乘法 ……………………………………………………………………… 233
13.2.1 矩阵乘法原理 ……………………………………………………… 233
13.2.2 矩阵乘法 MapReduce设计 ………………………………………… 233
13.2.3 矩阵乘法 MapReduce实现 ………………………………………… 234 习题 …………………………………………………………………………………… 236
??
第14章 大数据挖掘算法 ………………………………………………………………… 237
14.1 大数据关联分析算法 ………………………………………………………… 237
14.1.1 Apriori算法简介 …………………………………………………… 238
14.1.2 Apriori算法 MapReduce设计 …………………………………… 238
14.1.3 Apriori算法 MapReduce实现 …………………………………… 239
14.2 大数据 KNN 分类算法 ……………………………………………………… 245
14.2.1 KNN 分类算法简介 ……………………………………………… 245
14.2.2 KNN 算法 MapReduce设计 ……………………………………… 246
14.2.3 KNN 算法 MapReduce实现 ……………………………………… 246
14.3 大数据 K-Means聚类算法 …………………………………………………… 249
14.3.1 K-Means聚类算法简介 …………………………………………… 249
14.3.2 基于 MapReduce的 K-Means算法的设计 ……………………… 251
14.3.3 基于 MapReduce的 K-Means算法的实现 ……………………… 251
14.4 大数据回归分析算法 ………………………………………………………… 258
14.4.1 大数据回归分析算法简介 ………………………………………… 258
14.4.2 基于 MapReduce的多元回归分析算法设计……………………… 259
14.4.3 基于 MapReduce的多元回归分析算法的实现…………………… 259 习题 …………………………………………………………………………………… 263
第5篇 大数据平台Hadoop实践与应用案例
第15章 Hadoop大数据平台实践………………………………………………………… 267
15.1 Hadoop系统的安装与配置 ………………………………………………… 267
15.1.1 安装前的准备工作 ………………………………………………… 268
15.1.2 Linux虚拟机的安装 ……………………………………………… 268
15.1.3 安装和配置JDK …………………………………………………… 275
15.1.4 下载安装 Hadoop ………………………………………………… 276
15.1.5 SSH 免密登录 ……………………………………………………… 278
15.1.6 虚拟机克隆 ………………………………………………………… 279
15.1.7 Hadoop运行 ……………………………………………………… 279
15.1.8 查看集群状态 ……………………………………………………… 280
15.2 Hadoop平台基本操作 ……………………………………………………… 280
15.2.1 Hadoop启动与关闭命令 ………………………………………… 280
15.2.2 Hadoop文件操作 ………………………………………………… 281
15.2.3 Hadoop程序运行命令 …………………………………………… 282
15.3 Hadoop平台程序开发过程 ………………………………………………… 282
15.3.1 开发环境配置 ……………………………………………………… 282
??
15.3.2 程序开发流程 ……………………………………………………… 285
习题 …………………………………………………………………………………… 288
第16章 开敞式码头系泊缆力预测应用案例 …………………………………………… 289
16.1 开敞式码头系泊缆力预测背景描述 ………………………………………… 289
16.1.1 开敞式码头系泊作业背景描述 …………………………………… 289
16.1.2 开敞式码头系泊缆力预测背景 …………………………………… 289
16.2 大数据系泊缆力相似性查询预测方法 ……………………………………… 290
16.2.1 模糊相似性查询基本方法 ………………………………………… 290
16.2.2 系泊缆力相似性查询预测模型 …………………………………… 291
16.3 相似性查询预测方法 MapReduce设计……………………………………… 293
16.3.1 相似性查询预测方法 Map设计…………………………………… 293
16.3.2 相似性查询预测方法 Reduce设计 ……………………………… 293
16.4 相似性查询预测方法 MapReduce实现……………………………………… 294
16.4.1 系泊缆力预测结果展示 …………………………………………… 295
16.4.2 系泊缆力预测结果分析 …………………………………………… 295
第17章 曙光XData大数据平台及应用案例 …………………………………………… 297
17.1 曙光 XData大数据平台简介 ………………………………………………… 297
17.1.1 曙光 XData大数据平台概述 ……………………………………… 297
17.1.2 曙光 XData大数据平台特点及应用 ……………………………… 298
17.2 曙光大数据平台架构及关键技术 …………………………………………… 298
17.2.1 曙光 XData大数据平台架构 ……………………………………… 298
17.2.2 曙光 XData大数据平台关键技术 ………………………………… 299
17.3 曙光 XData大数据平台组件 ………………………………………………… 301
17.3.1 曙光 XData大数据集成与数据治理组件 ………………………… 301
17.3.2 曙光 XData大数据存储与数据计算组件 ………………………… 302
17.3.3 曙光 XData大数据分析与数据智能组件 ………………………… 302
17.3.4 曙光 XData大数据可视化分析组件 ……………………………… 303
17.3.5 曙光 XData大数据安全管控与管理运维组件 …………………… 304
17.4 曙光 XData大数据平台操作实践 …………………………………………… 305
17.4.1 曙光 XData大数据平台安装与配置概述 ………………………… 305
17.4.2 曙光 XData大数据平台基本操作 ………………………………… 306
17.5 基于曙光 XData大数据平台的智能交通应用案例 ………………………… 309
17.5.1 曙光 XData智能交通应用项目背景 ……………………………… 309
17.5.2 曙光 XData智能交通应用方案设计 ……………………………… 310
17.5.3 曙光 XData智能交通功能实现及应用效果 ……………………… 311
参考文献……………………………………………………………………………………… 314
展开全部
预估到手价 ×
预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。
确定