Spark最佳实践

1星价 ¥36.8 (7.5折)

2星价￥36.8 定价￥49.0

作者：陈欢

出版社：人民邮电出版社

本类榜单：计算机/网络

分类：计算机/网络 > 数据库 > 数据仓库与数据挖掘

暂无评论

图文详情

ISBN：9787115422286
装帧：暂无
册数：暂无
重量：暂无
开本：16开
页数：210
出版时间：2016-05-01
条形码：9787115422286 ; 978-7-115-42228-6

本书特色

本书是spark实战指南，全书共分8章。前4章介绍spark的部署、工作机制和内核，后4章分别通过实战项目介绍spark sql、spark streaming、spark graphx和spark mlib功能模块。此外，本书详细介绍了常见的实战问题，比如大数据环境下的配置设置、程序调优等。本书附带的一键安装脚本，更能为初学者提供很大帮助。

内容简介

季昕华、徐羽作序，连城/胡熠/武泽胜/肖磊/靳志辉联袂推荐腾讯专家首次分享spark*实践基于真实数据，用案例分析全面解读大数据应用设计

第1章　spark与大数据　　11.1 　大数据的发展及现状　　11.1.1 　大数据时代所面临的问题　　11.1.2 　谷歌的大数据解决方案　　21.1.3 　hadoop生态系统　　31.2 　spark应时而生　　41.2.1 　spark的起源　　41.2.2 　spark的特点　　51.2.3 　spark的未来发展　　6第2章　spark基础　　82.1 　spark本地单机模式体验　　82.1.1 　安装虚拟机　　82.1.2 　安装jdk　　192.1.3 　下载spark预编译包　　212.1.4 　本地体验spark　　222.2 　高可用spark分布式集群部署　　252.2.1 　集群总览　　262.2.2 　集群机器的型号选择　　282.2.3 　初始化集群机器环境　　292.2.4 　部署zookeeper集群　　332.2.5 　编译spark　　352.2.6 　部署spark standalone集群　　372.2.7 　高可用hadoop集群　　402.2.8 　让spark运行在yarn上　　402.2.9 　一键部署高可用hadoop spark集群　　422.3 　spark编程指南　　432.3.1 　交互式编程　　432.3.2 　rdd创建　　442.3.3 　rdd操作　　472.3.4 　使用其他语言开发spark程序　　542.4 　打包和提交　　542.4.1 　编译、链接、打包　　542.4.2 　提交　　56第3章　spark工作机制　　583.1 　调度管理　　583.1.1 　集群概述及名词解释　　583.1.2 　spark程序之间的调度　　603.1.3 　spark程序内部的调度　　633.2 　内存管理　　653.2.1 　rdd持久化　　653.2.2 　共享变量　　663.3 　容错机制　　673.3.1 　容错体系概述　　673.3.2 　master节点失效　　683.3.3 　slave节点失效　　693.4 　监控管理　　693.4.1 　web界面　　693.4.2 　rest api　　723.4.3 　metrics指标体系　　733.4.4 　其他监控工具　　733.5 　spark程序配置管理　　733.5.1 　spark程序配置加载过程　　743.5.2 　环境变量配置　　743.5.3 　spark属性项配置　　743.5.4 　查看当前的配置　　763.5.5 　配置spark日志　　76第4章　spark内核讲解　　774.1 　spark核心数据结构rdd　　774.1.1 　rdd的定义　　784.1.2 　rdd的transformation　　804.1.3 　rdd的action　　824.1.4 　shuffle　　834.2 　sparkcontext　　844.2.1 　sparkconf配置　　844.2.2 　初始化过程　　854.2.3 　其他功能接口　　874.3 　dag调度　　874.3.1 　dagscheduler　　874.3.2 　taskscheduler　　90第5章　spark sql与数据仓库　　925.1 　spark sql基础　　935.1.1 　分布式sql引擎　　935.1.2 　支持的sql语法　　975.1.3 　支持的数据类型　　985.1.4 　dataframe　　995.1.5 　dataframe数据源　　1035.1.6 　性能调优　　1045.2 　spark sql原理和运行机制　　1045.2.1 　spark sql整体架构　　1055.2.2 　catalyst执行优化器　　1055.3 　应用场景：基于淘宝数据建立电商数据仓库　　1105.3.1 　电商数据仓库场景　　1115.3.2 　数据准备和表设计　　1115.3.3 　用spark sql来完成日常运营数据分析　　1155.3.4 　spark sql在大规模数据下的性能表现　　120第6章　spark流式计算　　1226.1 　spark streaming基础知识　　1236.1.1 　入门简单示例　　1236.1.2 　基本概念　　1246.1.3 　高级操作　　1296.2 　深入理解spark streaming　　1326.2.1 　dstream的两类操作　　1326.2.2 　容错处理　　1346.2.3 　性能调优　　1366.2.4 　与storm的对比　　1376.3 　应用场景：一个类似百度统计的流式实时系统　　1396.3.1 　web log实时统计场景　　1396.3.2 　日志实时采集　　1406.3.3 　流式分析系统实现　　140第7章　spark图计算　　1497.1 　什么是图计算　　1497.1.1 　图的基本概念　　1497.1.2 　图计算的应用　　1507.2 　spark graphx简介　　1517.2.1 　graphx实现　　1517.2.2 　graphx常用api介绍　　1527.3 　应用场景：基于新浪微博数据的社交网络分析　　1537.3.1 　社交网络分析的主要应用　　1537.3.2 　社区发现算法简介　　1547.3.3 　用graphx实现louvain算法　　1567.3.4 　小试牛刀：谁是你的闺蜜　　1627.3.5 　真实的场景：新浪微博关系分析　　164第8章　spark mllib　　1698.1 　机器学习简介　　1698.1.1 　什么是机器学习　　1698.1.2 　机器学习示例　　1718.1.3 　机器学习的基本方法　　1728.1.4 　机器学习的常见技巧　　1738.1.5 　机器学习参考资料　　1748.2 　mllib库简介　　1748.2.1 　基础数据类型　　1748.2.2 　主要的库　　1758.2.3 　附带的示例程序　　1768.3 　应用场景：搜索广告点击率预估系统　　1788.3.1 　应用场景　　1788.3.2 　逻辑回归　　1798.3.3 　学习算法　　1818.3.4 　模型评估　　1848.3.5 　数据准备　　1868.3.6 　模型训练　　1878.3.7 　模型调优　　195附录　scala语言参考　　197

展开全部

相关资料

“相较于其他大数据解决方案，spark的一大特点便是擅长在单一框架内搭建一体化大数据流水线。本书以spark 1.4为蓝本，既带读者概览spark的各个组件，又从实际出发，给出了各种典型案例的解决思路，尤其适合初学者快速把握spark的全貌和各组件的基本特点，从而结合实际，有针对性地发挥spark全能一体的优势。”——apache spark committer，databricks 软件工程师连城 “spark作为一个专门处理分布式大数据的有力工具，与“机器学习”碰撞出了火花。本书拿出一章重点介绍了计算广告中一个核心模型——点击率（ctr）预估的逻辑回归——在mllib中的完整实现，为“spark 机器学习”提供了很好的范例。相信这本全面介绍spark的实用宝典，会为读者提供很大帮助。”——阿里巴巴b2b搜索联盟算法负责人胡熠 “以hadoop为核心的技术，主导了过去十多年大数据技术的发展，我在小米经历了小米大数据团队的从无到有，见证了从刚开始hadoop支持所有业务，到后来大量的业务开始使用spark的过程，深刻体会到spark作为后起之秀，在近几年的发展突飞猛进，大有取代hadoop之势。一本好的技术书，既要能讲清楚技术背后的原理，又要能说明白其应用场景，《spark*佳实践》这两方面都做到了，是学习spark技术不可多得的好书。”——棒米科技联合创始人&cto 武泽胜 “数据已经成为工业革命的重要原材料，我们无法想象一个没有数据存在的“真空”环境。可以说，我们及我们周边的事物都只是数据繁衍的一个载体；如何利用好这个原材料，加工好这个原材料，挖掘好这个原材料，理解好这个原材料，已经成为一个核心竞争力。作为hadoop系的重要补充，spark更是为大数据处理虎上添翼，尤其是在更加复杂的数据迭代技术方面。作者结合多年实践著就本书，可以帮你快速进入这一“圣殿”，少走弯路，更加快速地决胜千里。”——腾讯数据平台部精准推荐中心总监肖磊 “面对诸多的大数据技术，如何能够快速学习？本书的作者们试着给spark初学者设计了一条路径：在深入讲解理论的同时，引导读者利用实际可运行的数据案例低成本地在实践中学习。“纸上得来终觉浅，绝知此事要躬行”，学习spark技术的有效方式就是在实际的spark环境中‘玩’数据。”——腾讯社交与效果广告部质量研发中心总监靳志辉

作者简介

陈欢腾讯资深程序员，15年编码经验，曾任职网络安全、互联网金融等部门，亲手从零建设了财付通业务的Spark集群，并使之同时支持SQL、实时计算、机器学习等多种数据计算场景。他目前就职于腾讯社交与效果广告部，从事大数据分析工作。林世飞腾讯资深研究员，2005年加入腾讯，先后在无线产品、安全中心、搜索平台、开放平台、社交与效果广告部等部门从事开发和团队管理工作。他对网络安全、搜索引擎、数据挖掘、机器学习有一定了解，热衷知识传播和分享，曾获腾讯学院2009年年度优秀讲师。目前，他就职于社交与效果广告部，负责广告系统相关的研发工作。

本类五星书

更多>>

浏览历史

Spark最佳实践

陈欢

¥36.8¥49.0

本类畅销

×

Spark最佳实践

本书特色

内容简介

目录

相关资料

作者简介

预估到手价 ×