×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
图文详情
  • ISBN:9787519840099
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:552
  • 出版时间:2020-03-01
  • 条形码:9787519840099 ; 978-7-5198-4009-9

本书特色

通过本书你将了解到如何使用、部署和维护Apache Spark开源集群计算框架。本书由Spark的创始人所撰写,重点介绍Spark*版本的新功能和新特点。本书将Spark功能分解为若干独立主题来进行全面介绍。
本书的主要内容有:
大数据技术和Spark概述。
通过实例学习DataFrame、SQL、Dataset等Spark的核心API。
了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程。
了解Spark如何在集群上运行。
Spark集群和应用程序的调试、监控、和调优。
学习Spark强大的流处理引擎——结构化流处理。通过本书你将了解到如何使用、部署和维护Apache Spark开源集群计算框架。本书由Spark的创始人所撰写,重点介绍Spark*版本的新功能和新特点。本书将Spark功能分解为若干独立主题来进行全面介绍。
本书的主要内容有:大数据技术和Spark概述。 通过实例学习DataFrame、SQL、Dataset等Spark的核心API。 了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程。 了解Spark如何在集群上运行。 Spark集群和应用程序的调试、监控、和调优。 学习Spark强大的流处理引擎——结构化流处理。 学习MLlib并了解如何应用它解决包括分类、推荐,以及其他多种实际问题。

内容简介

?大数据技术和Spark概述。?通过实例学习DataFrame、SQL、Dataset等Spark的核心API。?了解Spark的低级API实现,包括RDD以及SQL和DataFrame的执行过程。?了解Spark如何在集群上运行。?Spark集群和应用程序的调试、监控、和调优。?学习Spark强大的流处理引擎——结构化流处理。?学习MLlib并了解如何应用它解决包括分类、推荐,以及其他多种实际问题。

目录

目录 前言1 第Ⅰ部分 大数据与Spark概述 第1章 Spark是什么? 9 Apache Spark的设计哲学 10 背景: 大数据问题12 Spark的历史 12 Spark的现状和未来 14 运行Spark 14 第2章 Spark浅析 18 Spark的基本架构18 Spark API的多语言支持 20 Spark的API21 启动Spark 21 转换操作 24 动作操作 25 Spark用户接口26 一个完整的例子 27 小结35 第3章 Spark工具集介绍 36 运行生产应用程序37 Dataset: 类型安全的结构化API 38 结构化流处理39 机器学习和高级数据分析 43 低级API48 SparkR 49 Spark的生态系统和工具包50 小结50 第Ⅱ部分 结构化API——DataFrame、 SQL和Dataset 第4章 结构化API概述 53 DataFrame类型和Dataset类型 54 Schema 54 结构化Spark类型概述 54 结构化API执行概述 61 小结63 第5章 基本的结构化操作 64 模式65 列和表达式66 记录和行 69 DataFrame转换操作70 小结86 第6章 处理不同的数据类型 87 在哪里查找API87 转换成Spark类型89 处理布尔类型89 处理数值类型92 处理字符串类型 96 处理日期和时间戳类型 101 处理数据中的空值 106 处理JSON类型 113 用户自定义函数 115 小结 119 第7章 聚合操作 120 聚合函数 122 分组 128 window函数 130 分组集 133 用户自定义的聚合函数 138 小结 139 第8章 连接操作 140 连接表达式 140 连接类型 140 内连接 142 外连接 143 左外连接 143 右外连接 144 左半连接 144 左反连接 145 自然连接 146 交叉连接(笛卡尔连接) 146 连接操作常见问题与解决方案 147 小结 152 第9章 数据源 153 数据源 API 的结构 154 CSV 文件 156 JSON 文件 161 Parquet文件 163 ORC文件 164 SQL数据库 165 文本文件 173 高级I/O概念 174 小结 177 第10章 Spark SQL 178 什么是 SQL? 178 大数据和SQL: Apache Hive 178 大数据和SQL: Spark SQL 179 如何运行Spark SQL 查询 180 Catalog 182 视图 187 数据库 188 选择语句 189 高级主题 190 其他功能 194 小结 195 第11章 Dataset 196 何时使用Dataset 197 创建Dataset 197 动作操作 199 转换操作 199 连接 201 分组和聚合 202 小结 203 第Ⅲ部分 低级API 第12章 弹性分布式数据集 207 什么是低级API? 207 关于RDD 208 创建RDD 210 操作RDD 212 转换操作 213 动作操作 215 保存文件 218 缓存 219 检查点 220 通过pipe方法调用系统命令操作RDD 220 小结 222 第13章 高级RDD 223 Key-Value基础 (Key-Value RDD)224 聚合操作 226 CoGroups 230 连接操作 231 控制分区 232 自定义序列化 235 小结 236 第14章 分布式共享变量 237 广播变量 237 累加器 239 小结 243 第Ⅳ部分 生产与应用 第15章 Spark如何在集群上运行 247 Spark应用程序的体系结构 247 Spark应用程序的生命周期( Spark外部) 250 Spark应用程序的生命周期( Spark内部) 253 执行细节 258 小结 259 第16章 开发Spark应用程序 260 编写Spark应用程序 260 测试Spark应用程序 265 开发过程 268 启动应用程序 268 配置应用程序 271 小结 278 第17章 部署Spark 279 在哪里部署Spark集群 280 集群管理器 282 其他注意事项 288 小结 289 第18章 监控与调试 290 监控级别 290 要监视什么 291 Spark日志 292 Spark UI 293 调试和Spark抢救方案 301 小结 311 第19章 性能调优 312 间接性能优化 313 直接性能优化 320 小结 325 第Ⅴ部分 流处理 第20章 流处理基础 329 什么是流处理? 330 流处理设计要点 334 Spark的流处理API 336 小结 338 第21章 结构化流处理基础 339 结构化流处理概述 339 核心概念 340 结构化流处理实例 343 结构化流上的转换操作 347 聚合 348 输入和输出 349 流式Dataset API 358 小结 359 第22章 事件时间和有状态处理 360 事件时间 360 有状态处理 362 任意有状态处理 362 事件时间基础知识 363 事件时间的窗口 363 在流中删除重复项 370 任意有状态处理 371 小结 380 第23章 生产中的结构化流处理 381 容错和检查点 381 更新应用程序 382 度量和监视 384 警报 386 使用流侦听器进行高级监视 387 小结 388 第Ⅵ部分 高级分析与机器学习 第24章 高级分析和机器学习概览 391 高级分析简介 392 Spark的高级分析工具包 399 高级MLlib概念 400 MLlib的执行 402 部署模式 412 小结 413 第25章 预处理和特征工程 414 根据应用场景格式化模型 414 转换器 416 预处理的估计器 417 高级转换器 418 处理连续型特征 422 使用类别特征 428 文本数据转换器 431 特征操作 440 特征选择 442 高级主题 443 编写自定义转换器 444 小结 445 第26章 分类 446 应用场景 446 分类的类型 446 MLlib中的分类模型 447 逻辑回归 449 决策树 452 随机森林和梯度提升树 454 朴素贝叶斯 456 分类评估器和自动化模型校正 457 One-vs-Rest分类 459 多层感知器 459 小结 459 第27章 回归 460 应用场景 460 MLlib中的回归模型 461 线性回归 462 广义线性回归 464 决策树 466 随机森林和梯度提升树 467 高级方法 468 评估器和自动化模型校正 469 度量标准 470 小结 471 第28章 推荐系统 472 应用场景 472 基于交替*小二乘法的协同过滤 473 推荐系统的评估器 476 度量指标 477 频繁模式挖掘 479 小结 479 第29章 无监督学习 480 应用场景 480 模型的可扩展性 481 k-means 482 二分k-means 484 高斯混合模型 485 LDA主题模型 487 小结 490 第30章 图分析 491 构建图 493 查询图 495 模式发现 496 图算法 498 小结 504 第31章 深度学习 505 什么是深度学习? 505 在Spark中使用深度学习 506 深度学习库 508 Deep Learning Pipelines的一个简单示例 510 小结 514 第Ⅶ部分 生态系统 第32章 语言支持: Python(PySpark)和R(SparkR和 Sparklyr) 517 PySpark 518 Spark 中的R 519 小结 529 第33章 生态系统和社区 530 Spark软件包 530 社区 533 小结 534
展开全部

作者简介

Bill Chambers是Databricks的一名产品经理,致力于使用Spark和Databricks帮助客户完成大规模数据分析的任务。Bill还定期写关于数据科学和大数据方面的博客, 并常在各种会议和见面会上展示产品。他拥有加州大学伯克利分校信息学院的信息系统硕士学位, 研究方向为数据科学。Matei Zaharia是斯坦福大学计算机科学系助理教授和Databricks的首席技术官。他于2009年在加州大学伯克利分校创立了Spark项目, 那时他是一名博士生, 并继续担任Apache Spark项目的副主席。Matei Zaharia还是Apache Mesos项目的联合创始人,也是Apache Hadoop项目的贡献者。Matei Zaharia以他出色的研究工作获得了2014年美国计算机学会博士论文奖和VMware系统研究奖。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航