Hadoop与Spark入门

1星价 ¥50.2 (8.5折)

2星价￥50.2 定价￥59.0

作者：覃雄派、陈跃国

出版社：清华大学出版社

本类榜单：计算机/网络

分类：计算机/网络 > 计算机教材

暂无评论

图文详情

ISBN：9787302613633
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：其他
页数：252
出版时间：2022-11-01
条形码：9787302613633 ; 978-7-302-61363-3

本书特色

本书篇幅不长，内容易懂，有利于快速入门。兼顾原理讲解和具体操作，实践性强，使读者兴趣盎然，更有成就感。利用虚拟化技术，无须搭建物理集群，在一台计算机上完成分布式部署，万事不求人，玩转Hadoop和Spark。

内容简介

本书为一本大数据技术的入门书籍，介绍Hadoop大数据平台和Spark大数据平台及相关工具的原理，以及如何进行部署和简单开发。全书包含13章: 第1、2章介绍如何为深入学习Hadoop和Spark做环境准备，包括VMware虚拟机的创建和CentOS操作系统安装。第3～6章介绍Hadoop大数据平台的基本原理，包括HDFS、MapReduce计算模型、HBase数据库，以及Hive数据仓库的原理、部署方法和开发技术。第7～11章介绍Spark大数据平台的基本原理，包括弹性分布式数据集、转换与动作操作、宽依赖与窄依赖、有向无环图表达的作业及其处理过程等，并且介绍了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和开发技术。*后两章介绍了Flume（第12章）和Kafka（第13章）两个工具，Flume用于大量日志的收集和处理，Kafka用于对大量快速到达的数据进行及时、可靠、暂时的存储。本书适合高等院校高年级本科生以及硕士研究生使用，也可以供非计算机专业学生及相关领域技术人员参考。