暂无评论
图文详情
- ISBN:9787560655796
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:26cm
- 页数:446页
- 出版时间:2020-03-01
- 条形码:9787560655796 ; 978-7-5606-5579-6
内容简介
本书全面介绍了Hadoop生态系统中各个开源组件的理论知识和实践案例。全书分为上篇 —— Hadoop基础篇、中篇 —— Hadoop提高篇、下篇 —— 案例篇三部分, 共11章, 涉及数据采集、数据存储与管理、数据处理与分析、数据可视化一系列大数据应用生命周期中各阶段典型组件的理论知识、安装部署和实战使用。上篇为第1-8章, 具体内容包括大数据概述、初识Hadoop、分布式文件系统HDFS、分布式计算框架MapReduce、统一资源管理和调度框架YARN、分布式协调框架ZooKeeper、分布式数据库HBase、数据仓库Hive ; 中篇为第9、10章, 具体内容包括大数据迁移和采集工具、数据可视化 ; 下篇为第11章, 介绍了使用Hadoop平台完成用户画像项目的全过程。
目录
上篇 Hadoop基础篇
第1章 大数据概述 2
1.1 大数据内涵 3
1.2 大数据的特征 5
1.3 大数据的关键技术 6
1.4 大数据产业 8
1.5 大数据与物联网、云计算、人工智能、5G的关系 11
1.6 大数据岗位介绍 12
1.7 大数据学习路线 13
本章小结 14
思考与练习题 15
第2章 初识Hadoop 16
2.1 Hadoop概述 17
2.2 Hadoop生态系统 20
2.3 Hadoop的体系架构 23
2.4 Hadoop的应用现状 23
2.5 部署和运行Hadoop 25
本章小结 50
思考与练习题 50
实验1 部署全分布模式Hadoop集群 51
第3章 分布式文件系统HDFS 52
3.1 HDFS简介 53
3.2 HDFS的体系架构 53
3.3 HDFS文件的存储机制 55
3.4 HDFS数据的读/写过程 57
3.5 实战HDFS 60
3.6 HDFS的高可靠性机制 75
本章小结 89
思考与练习题 89
实验2 实战HDFS 90
第4章 分布式计算框架MapReduce 91
4.1 MapReduce简介 92
4.2 **个MapReduce案例:WordCount 92
4.3 MapReduce的作业执行流程 97
4.4 MapReduce的数据类型与格式 101
4.5 Shuffle的机制 104
4.6 在MapReduce中自定义组件 105
4.7 实战MapReduce 109
4.8 MapReduce调优 116
4.9 其他主流计算框架 118
本章小结 119
思考与练习题 120
实验3 MapReduce编程 120
第5章 统一资源管理和调度框架YARN 122
5.1 初识YARN 123
5.2 YARN的体系架构 126
5.3 YARN的工作流程 127
5.4 实战YARN 129
5.5 YARN的新特性 134
5.6 其他统一资源管理调度框架 141
本章小结 150
思考与练习题 151
第6章 分布式协调框架ZooKeeper 152
6.1 分布式协调技术 153
6.2 初识ZooKeeper 154
6.3 ZooKeeper的系统模型 156
6.4 ZooKeeper的工作原理 163
6.5 ZooKeeper的典型应用场景 172
6.6 部署ZooKeeper集群 176
6.7 实战ZooKeeper 183
本章小结 218
思考与练习题 219
实验4 部署ZooKeeper集群和实战ZooKeeper 220
第7章 分布式数据库HBase 221
7.1 NoSQL简介 222
7.2 初识HBase 224
7.3 HBase的数据模型 224
7.4 HBase的体系架构 229
7.5 HBase的运行机制 233
7.6 部署HBase集群 235
7.7 实战HBase 241
7.8 HBase的性能优化 264
本章小结 265
思考与练习题 266
实验5 部署全分布模式HBase集群和实战HBase 267
第8章 数据仓库Hive 268
8.1 初识Hive 269
8.2 Hive的体系架构 271
8.3 Hive的数据类型 273
8.4 Hive的文件格式 275
8.5 Hive的数据模型 275
8.6 Hive函数 278
8.7 部署Hive 285
8.8 实战Hive 299
8.9 Hive的优化策略 307
本章小结 308
思考与练习题 309
实验6 部署本地模式Hive和实战Hive 309
中篇 Hadoop提高篇
第9章 大数据迁移和采集工具 312
9.1 数据迁移工具Sqoop 313
9.2 日志采集工具Flume 344
9.3 分布式流平台Kafka 357
9.4 ETL工具Kettle 371
本章小结 377
思考与练习题 378
第10章 数据可视化 379
10.1 可视化概念 380
10.2 可视化的作用与意义 381
10.3 可视化图表的类型 386
10.4 可视化工具 391
本章小结 419
思考与练习题 419
下篇 案 例 篇
第11章 华为P30手机评论画像分析 422
11.1 需求分析 423
11.2 项目设计 423
11.3 项目环境搭建 423
11.4 数据采集与预处理 424
11.5 使用Hive分析数据 430
11.6 数据可视化 437
本章小结 443
思考与练习题 443
参考文献 444
展开全部
本类五星书
本类畅销
-
乡村振兴新技术:新时代农村短视频编辑技术基础入门
¥12.8¥32.0 -
AI绘画+AI摄影+AI短视频从入门到精通
¥45.5¥79.8 -
企业AI之旅
¥43.5¥79.0 -
机器学习
¥59.4¥108.0 -
基于知识蒸馏的图像去雾技术
¥61.6¥88.0 -
软件设计的哲学(第2版)
¥51.0¥69.8 -
智能算法优化及其应用
¥52.4¥68.0 -
Photoshop图像处理
¥25.5¥49.0 -
R语言医学数据分析实践
¥72.3¥99.0 -
大模型推荐系统:算法原理、代码实战与案例分析
¥62.3¥89.0 -
剪映 从入门到精通
¥25.7¥59.8 -
游戏造梦师----游戏场景开发与设计
¥67.6¥98.0 -
SAR图像处理与检测
¥35.4¥49.8 -
人工智能
¥29.4¥42.0 -
中文版PHOTOSHOP 2024+AI修图入门教程
¥59.3¥79.0 -
WPS办公软件应用
¥25.2¥36.0 -
格拉斯曼流行学习及其在图像集分类中的应用
¥13.7¥28.0 -
轻松上手AIGC:如何更好地向CHATGPT提问
¥40.3¥62.0 -
元宇宙的理想与现实:数字科技大成的赋能与治理逻辑
¥61.6¥88.0 -
云原生安全:攻防与运营实战
¥66.8¥89.0