Python大数据处理库PySpark实战
- ISBN:9787302575085
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:310
- 出版时间:2021-03-01
- 条形码:9787302575085 ; 978-7-302-57508-5
本书特色
PySpark可以对大数据进行分布式处理,降低了大数据的学习门槛。本书是一本PySpark入门教材,重点讲述PySpark安装、PySpark用法、ETL数据处理、PySpark机器学习及其实战,*后给出一个综合实战案例。本书逻辑线索清晰,内容体系合理,适合有一定Python基础的大数据分析和处理人员学习使用。
内容简介
我国提出新基建概念,要加快大数据中心、人工智能等新型基础设施的建设进度,这无疑需要更多的大数据人才。PySpark可以对大数据进行分布式处理,降低大数据学习门槛,本书正是一本PySpark入门教材,适合有一定Python基础的读者学习使用。 本书分为7章,章介绍大数据的基本概念、常用的大数据分析工具;第2章介绍Spark作为大数据处理的特点和算法;第3章介绍Spark实战环境的搭建,涉及Windows和Linux操作系统;第4章介绍如何灵活应用PySpark对数据进行操作;第5章介绍PySpark ETL处理,涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容;第6章介绍PySpark如何利用MLlib库进行分布式机器学习(Titanic幸存者预测);第7章介绍一个PySpark和Kafka结合的实时项目。 本书内容全面、示例丰富,可作为广大PySpark入门读者推荐的参考书,同时能作为大中专院校师生的教学参考书,也可作为高等院校计算机及相关专业的大数据技术教材使用。
目录
作者简介
汪明,硕士,毕业于中国矿业大学,徐州软件协会副理事长,某创业公司合伙人。从事软件行业十余年,发表论文数十篇。著有图书《TypeScript实战》《Go并发编程实战》。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0 -
PREMIERE PRO 2023全面精通:视频剪辑+颜色调整+转场特效+字幕制作+案例实战
¥69.3¥99.0