- ISBN:9787115388537
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:192
- 出版时间:2015-05-01
- 条形码:9787115388537 ; 978-7-115-38853-7
本书特色
《storm技术内幕与大数据实践》内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、实时系统扩展、以用户画像为主的数据平台,*后到推荐、广告、搜索等具体的大数据应用。书中提到的不少问题是实际生产环境中因为数据量增长而遇到的一些真实问题,对即将或正在运用实时系统处理大数据问题的团队会有所帮助。
内容简介
之前的大数据平台主要基于hadoop生态系统进行全量更新和增量更新,大部分业务都是一天更新一次,目前增量更新逐渐被流式框架取代,以达到实时。但是,数据的暴增又让实时系统的稳定性成为各公司的一个技术难题,并且各类实时应用的性能也逐渐成为一种挑战。很多开源软件在数据量上升后或多或少地存在一些bug,往往影响公司的一大批应用和业务,如何更好地了解和使用hadoop、storm、spark等基础框架就成为一个迫切需要解决的问题。 《storm技术内幕与大数据实践》从实时大数据平台的整体架构,到大众点评和1号店实时平台的具体介绍,再通过一张张顺序图讲解了storm的内部机制,从外到里,从下到上,一步步介绍了互联网公司实时大数据平台的整体情况。 此外,用户画像已经慢慢成为很多公司的基础数据,支撑着公司内部大数据应用的个性化和精准化,如何让用户的短期画像更新得更及时,如何融入外部公司的大数据,也是不少公司面临的问题。本书分享了作者在融合外部数据方面的一些感悟,希望对摸索融合外部数据的用户有益。书的*后还介绍了推荐系统、精准化广告、搜索等一些常见的大数据应用。
目录
第1章 绪论
1.1 storm的基本组件
1.1.1 集群组成
1.1.2 核心概念
1.1.3 storm的可靠性
1.1.4 storm的特性
1.2 其他流式处理框架
1.2.1 apache s4
1.2.2 spark streaming
1.2.3 流计算和storm的应用
第2章 实时平台介绍
2.1 实时平台架构介绍
2.2 kafka架构
2.2.1 kafka的基本术语和概念
2.2.2 kafka在实时平台中的应用
2.2.3 消息的持久化和顺序读写
2.2.4 sendfile系统调用和零复制
2.2.5 kafka的客户端
2.2.6 kafka的扩展
2.3 大众点评实时平台
2.3.1 相关数据
2.3.2 实时平台简介
2.3.3 blackhole
2.4 1号店实时平台
第3章 storm集群部署和配置
3.1 storm的依赖组件
3.2 storm的部署环境
3.3 部署storm服务
3.3.1 部署zookeeper
3.3.2 部署storm
3.3.3 配置storm
3.4 启动storm
3.5 storm的守护进程
3.6 部署storm的其他节点
3.7 提交topology
第4章 storm内部剖析
4.1 storm客户端
4.2 nimbus
4.2.1 启动nimbus服务
4.2.2 nimbus服务的执行过程
4.2.3 分配executor
4.2.4 调度器
4.2.5 默认调度器defaultscheduler
4.2.6 均衡调度器evenscheduler
4.3 supervisor
4.3.1 isupervisor接口
4.3.2 supervisor的共享数据
4.3.3 supervisor的执行过程
4.4 worker
4.4.1 worker中的数据流
4.4.2 创建worker的过程
4.5 executor
4.5.1 executor的创建
4.5.2 创建spout的executor
4.5.3 创建bolt的executor
4.6 task
4.6.1 task的上下文对象
4.6.2 task的创建
4.7 storm中的统计
4.7.1 stats框架
4.7.2 metric框架
4.8 ack框架
4.8.1 ack的原理
4.8.2 acker bolt
4.9 storm总体架构
第5章 storm运维和监控
5.1 主机信息监控
5.1 日志和监控
5.2 storm ui和nimbusclient
5.3 storm metric的使用
5.4 storm zookeeper的目录
5.5 storm hook的使用
第6章 storm的扩展
6.1 storm ui的扩展
6.1.1 storm ui原生功能
6.1.2 storm ui新功能需求
6.1.3 storm的thrift接口
6.2 资源隔离
6.2.1 cgroup测试
6.2.2 基于cgroup的资源隔离的实现
第7章 storm开发
7.1 简单示例
7.2 调试和日志
7.3 storm trident
7.4 strom drpc
第8章 基于storm的实时数据平台
8.1 hadoop到storm的代码迁移经验
8.2 实时用户画像
8.2.1 简单实时画像
8.2.2 实时画像优化
8.2.3 实时画像的毫秒级更新
8.3 其他场景画像
8.4 画像的兴趣度模型构建
8.5 外部画像融合经验分享
8.6 交互式查询和分析用户画像
8.7 实时产品和店铺信息更新
第9章 大数据应用案例
9.1 实时dau计算
9.2 实时个性化推荐
9.2.1 推荐系统介绍
9.2.2 实时推荐系统的方法
9.2.3 基于storm的实时推荐系统
9.3 广告投放的精准化
9.3.1 点击率预测
9.3.2 搜索引擎营销
9.3.3 精准化营销与千人千面
9.4 实时意图和搜索
9.4.1 用户意图预测
9.4.2 搜索比价
9.4.3 搜索排序
第10章 storm使用经验和性能优化
10.1 使用经验
10.1.1 使用rebalance命令动态调整并发度
10.1.2 使用tick消息做定时器
10.1.3 使用组件的并行度代替线程池
10.1.4 不要用drpc批量处理大数据
10.1.5 不要在spout中处理耗时的操作
10.1.6 log4j的使用技巧
10.1.7 注意fieldsgrouping的数据均衡性
10.1.8 优先使用localorshufflegrouping
10.1.9 设置合理的maxspoutpending值
10.1.10 设置合理的worker数
10.1.11 平衡吞吐量和时效性
10.2 性能优化
10.2.1 找到topology的性能瓶颈
10.2.2 gc参数优化
10.3 性能优化原则
附录a kafka原理
附录b 将storm源码导入eclipse
相关资料
大数据会推动信息服务从全体走向群体,从群体走向个体,本书深入介绍了推荐技术的内涵和挑战,值得学者和企业技术骨干仔细阅读。
——周涛,《大数据时代》中文版译者,电子科技大学大数据研究中心主任
这本书让我受益,书中的内容汇集了几位作者在两家互联网公司的大数据实践,相信此书会让准备从事大数据工作的人少走很多弯路。
——李钢江,原谷歌技术总监,百度大数据部总监,现跟谁学联合创始人兼cto
什么是流式计算,什么是storm,storm有哪些特性以及怎么使用好storm,本书会给出相应的答案。以原理介绍加实际项目的形式,有深度有内涵,值得一读。
——闫剑锋,大众点评数据中心负责人
流式计算是大数据计算整个体系中的一个重要支柱。本书从实践者的角度出发,讲解了基于storm的流式数据处理的整体解决方案以及在互联网公司的实践经验,同时深入剖析了storm的核心实现机理,有广度有深度,是一本值得向相关从业人员推荐的好书。
——张珺,1号店首席基础架构师
作者从流式计算讲到用户画像系统的构建,*后再到具体的推荐、广告等大数据应用,不但深入讲解了流式计算的内部机制,还从多个维度介绍了大数据平台。本书的内容对大数据从业人员具有很高的价值。
——沙燕霖,1号店精准化部门负责人
如何收集和处理海量数据,并从中挖掘出有价值的金矿是很多公司面临的问题,本书会带你寻找到想要的结果。
——何毅,中国**款小灵通的设计者,潮wifi合伙人兼cto
本书比较全面地介绍了实时数据平台以及具体的大数据应用,当前系统地全面介绍实时大数据平台的中文书籍还非常匮乏,本书填补了这一空白。
——章捷,三星电子(中国)研发中心首席工程师
作者简介
陈敏敏 1号店个性精准化部门资深架构师,在此之前曾服务于微软和三星电子等公司,长期从事大数据、搜索和推荐平台相关工作。目前主要关注于NoSQL、实时计算框架、推荐、广告投放等相关技术。 王新春 大众点评网数据平台资深工程师,负责点评实时计算平台相关工作,推动流式计算和实时计算在点评的应用和推广,一直致力于大数据和分布式系统的研究和应用。目前主要从事NoSQL、实时分布式系统的研究与开发。 黄奉线 1号店基础架构部分布式存储团队负责人,推动流式计算在1号店的应用,获得CTO特别奖,长期从事基础架构相关工作。目前主要关注于NoSQL、开源、流式计算、分布式存储等相关技术。
-
全图解零基础word excel ppt 应用教程
¥16.3¥48.0 -
C Primer Plus 第6版 中文版
¥62.6¥108.0 -
零信任网络:在不可信网络中构建安全系统
¥34.2¥59.0 -
硅谷之火-人与计算机的未来
¥12.7¥39.8 -
情感计算
¥71.2¥89.0 -
大模型RAG实战 RAG原理、应用与系统构建
¥74.3¥99.0 -
大学计算机基础实验教程(MS Office版)——面向数据分析能力培养
¥29.1¥39.8 -
LINUX企业运维实战(REDIS+ZABBIX+NGINX+PROMETHEUS+GRAFANA+LNMP)
¥51.8¥69.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥65.6¥89.8 -
LINUX实战——从入门到精通
¥49.0¥69.0 -
剪映AI
¥52.8¥88.0 -
快速部署大模型:LLM策略与实践(基于ChatGPT等大语言模型)
¥56.9¥79.0 -
数据驱动的工业人工智能:建模方法与应用
¥68.3¥99.0 -
数据存储架构与技术(第2版)
¥62.9¥89.8 -
纹样之美:中国传统经典纹样速查手册
¥81.8¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
UN NX 12.0多轴数控编程案例教程
¥24.3¥38.0 -
实战知识图谱
¥48.3¥69.0 -
做好课题申报:AI辅助申请书写作
¥48.9¥69.8 -
Go 语言运维开发 : Kubernetes 项目实战
¥38.7¥79.0