×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
暂无评论
图文详情
  • ISBN:9787121472770
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:308
  • 出版时间:2024-01-01
  • 条形码:9787121472770 ; 978-7-121-47277-0

本书特色

本书的目的是带领读者快速进入Spark的大数据世界。 先,Python是一门简单易用的编程语言,也是大数据和人工智能领域的 编程语言,通过Python来驾驭Spark的大数据处理功能,可有效避免因Scala的不熟练导致对Spark本身的技术学习受到影响,同时能充分利用Python的丰富编程库(如Pandas、NumPy及各类机器学习算法库等)来实现不同需求的开发工作。其次,对于Spark的初学者来说,本书 重要的是如何将一些枯燥抽象的数据、概念和原理讲清楚,为此书中设计了大量的原理配图,在文字描述上辅以比喻、类比等各种 要的手段进行说明,以尽量使读者达到形象化的理解。 后,项目化的教学方法近年来在实践中得到了大量应用,相比传统的理论教学确实更加有效,但在教学实践过程中发现,过度项目化也很容易导致一些问题,比如知识凌乱,容易关注项目细节导致对一些复杂知识的理解不深等问题。因此,本书尝试以案例和项目相结合的方式,通过各种细小的案例推进零碎知识点的学习, 后将相关知识整合到项目中进行综合应用,以培养读者的相关技能。 本书的目的是带领读者快速进入Spark的大数据世界。 先,Python是一门简单易用的编程语言,也是大数据和人工智能领域的 编程语言,通过Python来驾驭Spark的大数据处理功能,可有效避免因Scala的不熟练导致对Spark本身的技术学习受到影响,同时能充分利用Python的丰富编程库(如Pandas、NumPy及各类机器学习算法库等)来实现不同需求的开发工作。其次,对于Spark的初学者来说,本书 重要的是如何将一些枯燥抽象的数据、概念和原理讲清楚,为此书中设计了大量的原理配图,在文字描述上辅以比喻、类比等各种 要的手段进行说明,以尽量使读者达到形象化的理解。 后,项目化的教学方法近年来在实践中得到了大量应用,相比传统的理论教学确实更加有效,但在教学实践过程中发现,过度项目化也很容易导致一些问题,比如知识凌乱,容易关注项目细节导致对一些复杂知识的理解不深等问题。因此,本书尝试以案例和项目相结合的方式,通过各种细小的案例推进零碎知识点的学习, 后将相关知识整合到项目中进行综合应用,以培养读者的相关技能。

内容简介

Spark是业界主流的大数据计算框架。本书通过一系列大数据应用案例和实践项目贯穿始终,使用Python详细阐述了 Spark 大数据环境的搭建、Spark RDD 离线数据计算、Spark SQL 离线数据处理、Spark Streaming实时数据计算等一系列常见的大数据处理问题,并在此基础上对Spark的核心概念及技术原理进行了详细分析,*后以两个综合案例分别展示了Spark离线数据处理和实时数据处理的具体应用与部署。本书践行“做中学”的设计理念,内容编排符合学习与认知规律,从简单细小案例入手,辅以大量配图对学习过程中涉及的枯燥数据、抽象概念和复杂原理进行图示化说明,语言浅显易懂,技术体系清晰,逻辑衔接合理。在本书*后两个综合案例中,分别从需求分析、技术准备、数据清洗、需求实现、数据可视化等几个关键环节展开叙述,便于读者对Spark大数据项目的整体开发流程有一个比较清晰的认识。

目录

第1章 Spark大数据平台与环境搭建 1 1.1 引言 2 1.2 Spark大数据平台介绍 2 1.2.1 Spark是什么 2 1.2.2 Spark与大数据的应用场景 4 1.2.3 Spark编程环境(PySpark) 5 1.2.4 Spark应用程序原理 7 1.3 Spark大数据环境搭建 8 1.3.1 Linux操作系统安装和配置 8 1.3.2 Hadoop伪分布集群环境搭建 23 1.3.3 Spark单机运行环境搭建 35 1.4 Python核心语法概览 47 1.5 单元训练 49 第2章 Spark RDD离线数据计算 50 2.1 引言 51 2.2 RDD基本原理 51 2.3 RDD编程模型 53 2.4 Spark RDD常用操作 55 2.4.1 RDD的创建 55 2.4.2 RDD的转换操作 60 2.4.3 RDD的行动操作 87 2.5 Spark RDD数据计算实例 90 2.5.1 词频统计案例 90 2.5.2 基本TopN问题案例 92 2.5.3 用户消费数据处理案例 95 2.6 Spark文件的读/写 96 2.6.1 文本文件的读/写 96 2.6.2 SequenceFile文件的读/写 99 2.7 单元训练 99 第3章 Spark SQL离线数据处理 101 3.1 引言 101 3.2 DataFrame基本原理 102 3.3 Spark SQL常用操作 103 3.3.1 DataFrame的基本创建 103 3.3.2 DataFrame的查看 108 3.3.3 DataFrame的数据操作(DSL) 111 3.3.4 DataFrame的数据操作(SQL) 123 3.4 Spark SQL数据处理实例 136 3.4.1 词频统计案例 136 3.4.2 人口信息统计案例 137 3.4.3 电影评分数据分析案例 139 3.5 Spark SQL访问数据库 143 3.5.1 在Linux操作系统上安装MySQL 143 3.5.2 DataFrame写入MySQL 145 3.5.3 从MySQL中创建DataFrame 147 3.6 DataFrame创建和保存 147 3.6.1 创建DataFrame 148
展开全部

作者简介

李新辉,男,硕士,毕业于南昌大学计算机应用技术专业,2006年开始从事计算机相关课程的教育教学,从事大数学技术专业的课程教学工作。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航