×
暂无评论
图文详情
  • ISBN:9787111532163
  • 装帧:暂无
  • 册数:暂无
  • 重量:暂无
  • 开本:128开
  • 页数:299
  • 出版时间:2016-04-12
  • 条形码:9787111532163 ; 978-7-111-53216-3

本书特色

本书共11章。第1章介绍常见的流数据的来源、应用以及三个重要特性:持续交付、结构松散和高基数,并阐释对流数据使用基础架构和算法的重要性。第2~6章介绍实时流架构的各组件涉及的软件、框架和方法。第2章概述实时流架构设计涉及的组件、特性、编程语言等。第3章介绍实时流架构的服务配置和协调,重点介绍协调服务器zookeeper。第4章阐述实时流架构中数据流程的管理,涉及用来管理数据流程的两个软件包kafka和flume。第5章分析流数据的处理,涉及如何用storm或samza来处理数据。第6章介绍流数据的存储问题。第7~11章重点关注流数据架构的应用构建问题。第7章讨论从流环境向*终用户的数据交付问题。这是构建仪表板以及其他监控应用所使用的核心机制。第8章涵盖流环境下的聚集计算问题,特别是对多分辨率时间序列数据的聚集计算问题。第9章简要介绍统计学和概率论的基础知识。第10章讨论略图,略图通常具有更快的更新速度和更小的内存占用空间,特别适合流环境。第11章讨论聚集计算之外能够应用于流数据的一些更深入的话题。

内容简介

本书共11章。第1章介绍常见的流数据的来源、应用以及三个重要特性:持续交付、结构松散和高基数,并阐释对流数据使用基础架构和算法的重要性。第2~6章介绍实时流架构的各组件涉及的软件、框架和方法。第2章概述实时流架构设计涉及的组件、特性、编程语言等。第3章介绍实时流架构的服务配置和协调,重点介绍协调服务器ZooKeeper。第4章阐述实时流架构中数据流程的管理,涉及用来管理数据流程的两个软件包Kafka和Flume。第5章分析流数据的处理,涉及如何用Storm或Samza来处理数据。第6章介绍流数据的存储问题。第7~11章重点关注流数据架构的应用构建问题。第7章讨论从流环境向*终用户的数据交付问题。这是构建仪表板以及其他监控应用所使用的核心机制。第8章涵盖流环境下的聚集计算问题,特别是对多分辨率时间序列数据的聚集计算问题。第9章简要介绍统计学和概率论的基础知识。第10章讨论略图,略图通常具有更快的更新速度和更小的内存占用空间,特别适合流环境。第11章讨论聚集计算之外能够应用于流数据的一些更深入的话题。

目录

目  录译者序前言致谢作者简介技术编辑简介第1章 流数据简介11.1流数据的来源21.1.1运行监控21.1.2web分析21.1.3在线广告31.1.4社交媒体31.1.5移动数据和物联网41.2流数据的特别之处51.2.1始终在线,持续流动51.2.2松散结构51.2.3高基数的存储61.3基础架构和算法61.4总结7**部分 流分析架构第2章 实时流架构设计102.1实时架构的组件102.1.1数据采集112.1.2数据流程112.1.3数据处理132.1.4数据存储132.1.5数据交付142.2实时架构的特性162.2.1高可用性162.2.2低延迟172.2.3水平可扩展性172.3实时编程语言182.3.1java182.3.2scala和clojure192.3.3javascript192.3.4go语言202.4实时架构概览202.4.1数据采集202.4.2数据流程212.4.3数据处理212.4.4数据存储212.4.5数据交付222.5总结22第3章 服务配置和协调243.1 配置和协调系统的研发动机243.2 维护分布式状态253.2.1不可靠的网络连接253.2.2时钟同步253.2.3不可靠环境下的一致性253.3apache zookeeper263.3.1znode273.3.2监视和通知283.3.3保持一致性283.3.4创建zookeeper集群283.3.5zookeeper本地java客户端333.3.6curator客户端393.3.7curator recipes组件453.4总结50第4章 流分析中的数据流程管理524.1分布式数据流程524.1.1至少交付一次524.1.2“n+1”问题534.2apache kafka:高吞吐量分布式消息机制544.2.1设计与实现544.2.2配置kafka环境574.2.3与kafka代理交互654.3apache flume:分布式日志采集系统 664.3.1flume agent674.3.2配置agent684.3.3flume数据模型684.3.4channel选择器694.3.5flume source714.3.6flume sink784.3.7sink processor804.3.8flume channel804.3.9flume interceptor814.3.10集成定制flume组件834.3.11运行flume agent834.4总结83第5章 流数据的处理855.1分布式流数据处理855.1.1协调865.1.2分区和融合865.1.3事务865.2用storm处理数据865.2.1storm集群的组件875.2.2配置storm集群885.2.3分布式集群895.2.4本地集群925.2.5storm拓扑925.2.6实现bolt955.2.7实现并使用spout995.2.8分布式远程过程调用1045.2.9trident:storm的dsl1055.3用samza处理数据1115.3.1apache yarn1115.3.2从yarn和samza开始1125.3.3将samza集成进数据流程1155.3.4samza作业1165.4总结122第6章 流数据的存储1236.1一致性哈希1236.2“nosql”存储系统1246.2.1redis1256.2.2mongodb1326.2.3cassandra1506.3其他存储技术1596.3.1关系数据库1606.3.2分布式内存数据网格1606.4存储技术的选择1606.4.1键-值存储1606.4.2文档存储1606.4.3分布式哈希表存储1616.4.4内存网格1616.4.5关系数据库1616.5数据仓库1616.5.1将hadoop作为etl和数据仓库1626.5.2lambda架构1666.6总结166第二部分 流分析与可视化第7章 流度量的交付1687.1流web应用1687.1.1使用node1697.1.2用npm管理node项目1717.1.3基于node开发web应用1747.1.4 基本的流仪表板1767.1.5 向web应用加入流1807.2 数据可视化1907.2.1 html5 canvas和内联svg1907.2.2 数据驱动文档:d3.js1967.2.3 高层工具2047.3 移动流应用2087.4 总结209第8章 精确的聚集计算和交付2118.1 定时计数与求和2148.1.1 基于bolt的计数2148.1.2 基于trident的计数2168.1.3 基于samza的计数2178.2 多分辨率时间序列的聚集计算2188.3 随机优化2228.4 时间序列数据的交付2238.4.1 用d3.js绘制带状图2248.4.2 高速canvas图2258.4.3 地平线图2268.5 总结227第9章 流数据的统计近似2299.1 数值计算库2299.2 概率和分布2309.2.1 期望和方差2319.2.2 统计分布2329.2.3 离散分布2329.2.4 连续分布2339.2.5 联合分布2359.3 参数估计2369.3.1 参数推断2369.3.2 delta方法2379.3.3 分布不等式2389.4 随机数产生器2389.5 抽样过程2429.5.1 从固定数据集中抽样2429.5.2 从流数据中抽样2439.5.3 有偏流抽样2449.6 总结245第10章 使用略图近似流数据24610.1 寄存器和哈希函数24610.1.1 寄存器24710.1.2 哈希函数24710.2 集合24910.3 bloom filter25110.3.1 算法25110.3.2 bloom filter大小的选择25310.3.3 并集和交集25310.3.4 基数估计25410.3.5 有趣的变体25510.4 distinct value略图25810.4.1 min-count算法25810.4.2 hyperloglog算法26010.5 count-min略图26410.5.1 点查询26510.5.2 count-min略图的实现26510.5.3 top-k和“heavy hitters”26610.5.4 范围查询和分位数查询26810.6 其他应用27010.7 总结271第11章 流数据的应用27211.1 实时数据模型27311.1.1 简单时间序列模型27311.1.2 线性模型27611.1.3 逻辑回归28011.1.4 神经网络模型28111.2 用模型预测28911.2.1 指数平滑法28911.2.2 回归法29111.2.3 神经网络法29311.3 监控29411.3.1 离群点检测29411.3.2 变化检测29611.4 实时优化29711.5 总结298
展开全部

作者简介

作 者 简 介Byron Ellis是Spongecell公司的CTO,该公司是一个总部位于纽约的广告技术公司,在旧金山、芝加哥和伦敦设有办事处。他负责公司的研发和计算基础设施的维护工作,在加盟Spongecell之前,他是在线交互技术“领头羊”企业Liveperson公司的首席数据科学家。他还在当时世界*大的广告交换公司之一adBrite担任过多项职务。他拥有哈佛大学统计学博士学位,攻读博士学位期间主要研究高吞吐量生物学实验数据中网络结构的学习方法。     技术编辑简介Jose Quinteiro有20年技术经验,参与过许多终端用户、企业、Web软件系统和应用的设计与开发工作。他对于包括前后端的设计和实现在内的全套Web技术有着丰富经验。Jose在威廉玛丽学院获得化学学士学位。     Luke Hornof拥有计算机科学博士学位,曾参与创建了多个成功的高科技初创企业。他在编程语言方面发表了十多篇同行评审的论文,曾为微处理器、广告和音乐行业开发过商用软件。他目前的兴趣之一是使用数据分析技术来改善Web和移动应用。     Ben Peirce在Spongecell广告技术公司负责研究工作和基础设施的管理。加盟Spongecell之前,他在医疗健康技术初创企业担任过多项职务,他还是SET Media公司的联合创始人之一,该公司是一个视频广告技术公司。他在哈佛大学工程与应用科学学院获得博士学位,研究方向是控制系统和机器人。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航