暂无评论
图文详情
- ISBN:9787560655796
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:26cm
- 页数:446页
- 出版时间:2020-03-01
- 条形码:9787560655796 ; 978-7-5606-5579-6
内容简介
本书全面介绍了Hadoop生态系统中各个开源组件的理论知识和实践案例。全书分为上篇 —— Hadoop基础篇、中篇 —— Hadoop提高篇、下篇 —— 案例篇三部分, 共11章, 涉及数据采集、数据存储与管理、数据处理与分析、数据可视化一系列大数据应用生命周期中各阶段典型组件的理论知识、安装部署和实战使用。上篇为第1-8章, 具体内容包括大数据概述、初识Hadoop、分布式文件系统HDFS、分布式计算框架MapReduce、统一资源管理和调度框架YARN、分布式协调框架ZooKeeper、分布式数据库HBase、数据仓库Hive ; 中篇为第9、10章, 具体内容包括大数据迁移和采集工具、数据可视化 ; 下篇为第11章, 介绍了使用Hadoop平台完成用户画像项目的全过程。
目录
上篇 Hadoop基础篇
第1章 大数据概述 2
1.1 大数据内涵 3
1.2 大数据的特征 5
1.3 大数据的关键技术 6
1.4 大数据产业 8
1.5 大数据与物联网、云计算、人工智能、5G的关系 11
1.6 大数据岗位介绍 12
1.7 大数据学习路线 13
本章小结 14
思考与练习题 15
第2章 初识Hadoop 16
2.1 Hadoop概述 17
2.2 Hadoop生态系统 20
2.3 Hadoop的体系架构 23
2.4 Hadoop的应用现状 23
2.5 部署和运行Hadoop 25
本章小结 50
思考与练习题 50
实验1 部署全分布模式Hadoop集群 51
第3章 分布式文件系统HDFS 52
3.1 HDFS简介 53
3.2 HDFS的体系架构 53
3.3 HDFS文件的存储机制 55
3.4 HDFS数据的读/写过程 57
3.5 实战HDFS 60
3.6 HDFS的高可靠性机制 75
本章小结 89
思考与练习题 89
实验2 实战HDFS 90
第4章 分布式计算框架MapReduce 91
4.1 MapReduce简介 92
4.2 **个MapReduce案例:WordCount 92
4.3 MapReduce的作业执行流程 97
4.4 MapReduce的数据类型与格式 101
4.5 Shuffle的机制 104
4.6 在MapReduce中自定义组件 105
4.7 实战MapReduce 109
4.8 MapReduce调优 116
4.9 其他主流计算框架 118
本章小结 119
思考与练习题 120
实验3 MapReduce编程 120
第5章 统一资源管理和调度框架YARN 122
5.1 初识YARN 123
5.2 YARN的体系架构 126
5.3 YARN的工作流程 127
5.4 实战YARN 129
5.5 YARN的新特性 134
5.6 其他统一资源管理调度框架 141
本章小结 150
思考与练习题 151
第6章 分布式协调框架ZooKeeper 152
6.1 分布式协调技术 153
6.2 初识ZooKeeper 154
6.3 ZooKeeper的系统模型 156
6.4 ZooKeeper的工作原理 163
6.5 ZooKeeper的典型应用场景 172
6.6 部署ZooKeeper集群 176
6.7 实战ZooKeeper 183
本章小结 218
思考与练习题 219
实验4 部署ZooKeeper集群和实战ZooKeeper 220
第7章 分布式数据库HBase 221
7.1 NoSQL简介 222
7.2 初识HBase 224
7.3 HBase的数据模型 224
7.4 HBase的体系架构 229
7.5 HBase的运行机制 233
7.6 部署HBase集群 235
7.7 实战HBase 241
7.8 HBase的性能优化 264
本章小结 265
思考与练习题 266
实验5 部署全分布模式HBase集群和实战HBase 267
第8章 数据仓库Hive 268
8.1 初识Hive 269
8.2 Hive的体系架构 271
8.3 Hive的数据类型 273
8.4 Hive的文件格式 275
8.5 Hive的数据模型 275
8.6 Hive函数 278
8.7 部署Hive 285
8.8 实战Hive 299
8.9 Hive的优化策略 307
本章小结 308
思考与练习题 309
实验6 部署本地模式Hive和实战Hive 309
中篇 Hadoop提高篇
第9章 大数据迁移和采集工具 312
9.1 数据迁移工具Sqoop 313
9.2 日志采集工具Flume 344
9.3 分布式流平台Kafka 357
9.4 ETL工具Kettle 371
本章小结 377
思考与练习题 378
第10章 数据可视化 379
10.1 可视化概念 380
10.2 可视化的作用与意义 381
10.3 可视化图表的类型 386
10.4 可视化工具 391
本章小结 419
思考与练习题 419
下篇 案 例 篇
第11章 华为P30手机评论画像分析 422
11.1 需求分析 423
11.2 项目设计 423
11.3 项目环境搭建 423
11.4 数据采集与预处理 424
11.5 使用Hive分析数据 430
11.6 数据可视化 437
本章小结 443
思考与练习题 443
参考文献 444
展开全部
本类五星书
本类畅销
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
Go 语言运维开发 : Kubernetes 项目实战
¥48.2¥79.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0