
包邮云原生数据仓库:原理与实践

- ISBN:9787121494536
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:308
- 出版时间:2024-12-01
- 条形码:9787121494536 ; 978-7-121-49453-6
本书特色
开启AI背景下的数据管理新时代,探索云原生数据仓库的核心技术! 写作团队权威:阿里云李飞飞、华东师范大学的周烜教授领衔撰写! 业内专家赞誉:中国工程院院士郑玮民倾情作序,周傲英校长、杜小勇教授、袁野教授、屠要峰总经理、刘松巍首席技术官、蒋维总经理力荐! 理论内容详尽:内容从数据仓库的发展历程、大数据处理技术、云原生架构设计、计算引擎优化、存储技术到资源管理与调度等多个维度,深入剖析了云原生数据仓库的核心原理与实现机制。 实践案例丰富:书中结合Redshift、Snowflake、BigQuery等国际领先产品以及AnalyticDB等国产代表性云数据仓库,提供了大量实战案例和*佳实践,帮助读者在理论学习的基础上,掌握实际应用技能。
内容简介
本书深入地探讨云原生数据仓库的理论知识与技术实践,主要内容涵盖数据仓库的发展历 程、大数据处理技术、云原生数据仓库的概念与特点,以及云计算时代的数据仓库技术。书中 详细介绍云原生数据仓库的架构设计,计算引擎、优化器、存储的关键技术,以及资源管理与 调度等知识。同时,本书结合Redshift、Snowflake、BigQuery等典型的云原生数据仓库,以及 AnalyticDB等代表性的国产数据仓库介绍大量的实践案例。此外,书中针对云原生数据仓库的 资源调度、查询优化、运维管理等方面进行深入的剖析,提供大量的*佳实践和应用场景。
前言
写作背景
随着数字化时代的到来,数据已经成为企业和组织*重要的资产之一。为了有效管理、分析和利用数据,数据仓库技术应运而生。随着大数据、云计算和人工智能等新兴技术的迅速崛起,数据仓库的构建正面临前所未有的挑战和机遇。传统数据仓库往往依赖固定的本地硬件资源,难以适应不断变化的业务需求和数据规模激增的状况,包括处理大规模数据的能力、支持快速变化业务需求的灵活性及资源配置的优化等。云计算的崛起为解决这些问题提供了新的契机。
云计算以其弹性、可扩展性和按需付费的特点,重塑了数据存储和处理的方式。与此同时,云原生技术的兴起强调了微服务、容器化和自动化管理,使数据仓库能够更好地适应不断变化的商业环境。云原生数据仓库正是这样一种符合新时代需求的产品,它不仅是传统数据库在云计算平台上的一次重新部署,更是一次从整体架构上的彻底革新。在云计算的基础设施中,数据仓库的计算资源和存储资源被高度解耦,构建了一种灵活、可伸缩的服务模式,并转向无状态(Serverless)的计算模型,实现按需分配和实时扩展,从而智能地应对瞬息万变的业务负载。云原生数据仓库的出现使企业能够在复杂的应用环境中快速调整其数据架构,从而在激烈的市场环境中保持竞争力。
目录
第1章 数据仓库与大数据处理技术概述/1
1.1 数据仓库发展概述 /2
1.1.1 萌芽:OLTP 数据库与数据仓库概念的提出 /2
1.1.2 发展:联机分析处理与信息仓库集成理论 /6
1.1.3 成熟:商用数据仓库与数据仓库建模理论 /13
1.2 大数据处理技术与数据仓库/20
1.2.1 大数据处理技术的起源 /21
1.2.2 分布式技术 /22
1.2.3 经典大数据处理架构 /28
1.2.4 湖仓一体 /29
1.3 数据仓库发展趋势 /31
1.3.1 云原生与分布式 /31
1.3.2 大数据与数据库一体化 /33
1.3.3 弹性与Serverless 扩容计费 /34
1.3.4 智能化 /36
1.3.5 数据共享与安全可信 /37
第2章 数据仓库与云计算/39
2.1 云计算时代数据仓库的发展 /40
2.1.1 基础设施服务化 /40
2.1.2 数据仓库服务化 /43
2.2 云计算时代数据仓库技术的机遇与挑战 /45
2.2.1 高弹性和平台成本之间的权衡 /45
2.2.2 稳定性挑战 /46
2.2.3 计算存储带宽瓶颈 /47
2.2.4 安全的挑战 /47
2.3 云原生数据仓库的技术特点 /48
2.3.1 存算分离与资源池化 /48
2.3.2 超融合基础架构 /49
2.3.3 高可用 /49
2.3.4 自服务 /49
2.3.5 分层架构与弹性扩展 /50
2.3.6 数据实时性与多级一致性 /50
2.3.7 数据开放性与共享 /51
2.3.8 计算多样性 /51
第3章 云原生数据仓库架构/53
3.1 设计理念/54
3.1.1 充分利用云资源 /54
3.1.2 纵向解耦与横向弹性 /54
3.1.3 一体化数据处理 /55
3.2 参考架构/56
3.3 典型云原生数据仓库/ 58
3.3.1 Redshift / 58
3.3.2 Snowflake / 63
3.3.3 BigQuery / 69
3.3.4 Databricks / 72
3.3.5 AnalyticDB / 74
3.4 云原生数据仓库比较/77
3.4.1 存算分离 /77
3.4.2 弹性能力与可扩展性 /77
3.4.3 Serverless 支持 / 78
3.4.4 计算模型 /78
3.4.5 ACID 语义 /78
3.4.6 生态兼容 /79
第4章 计算引擎关键技术/80
4.1 执行模型/ 81
4.1.1 迭代模型 /81
4.1.2 物化模型 /82
4.1.3 批处理模型 /83
4.2 单机执行模型/ 84
4.2.1 执行模型 /84
4.2.2 典型执行算子 /85
4.2.3 执行算子优化 /87
4.3 分布式执行框架/ 91
4.3.1 MPP 架构 / 91
4.3.2 BSP /94
4.4 典型交互模式/ 98
4.4.1 批处理 / 99
4.4.2 交互式 /101
4.4.3 实时检索 /102
4.4.4 机器学习 /103
4.5 AnalyticDB计算引擎实践/104
4.5.1 AnalyticDB 的执行模型 /105
4.5.2 AnalyticDB 的计算资源调度 /111
4.5.3 AnalyticDB 混合负载管理 /117
第5章 优化器关键技术/123
5.1 优化技术分类/124
5.2 成熟优化器模型/125
5.2.1 分层搜索 /125
5.2.2 统一搜索 /126
5.3 深入CBO/133
5.3.1 代价模型与参数估计 /133
5.3.2 动态抽样 /140
5.3.3 查询重优化 /143
5.4 AnalyticDB优化器实践/150
5.4.1 主体框架 /150
5.4.2 统计信息管理 /152
5.4.3 湖仓一体优化器 /157
第6章 数据仓库存储关键技术/158
6.1 湖仓架构/159
6.1.1 Azure、AWS 和Open Data Lakehouse / 160
6.1.2 Hudi、IceBerg 和Delta Lake /165
6.2 数据仓库存储架构/172
6.2.1 单机存储架构 /172
6.2.2 分布式共享存储 /173
6.3 典型存储格式/175
6.3.1 行存储 /176
6.3.2 列存储 /177
6.3.3 行列混合存储 /178
6.4 关键数据结构、索引与压缩技术/ 180
6.4.1 数据结构 /180
6.4.2 索引实现 /186
6.4.3 典型压缩算法 /197
6.5 数据分区技术/204
6.5.1 哈希分区 /205
6.5.2 Range 分区 / 206
6.5.3 其他数据分布模式 /207
6.5.4 数据冷热分层及生命周期管理 /208
6.6 数据一致性和可用性/209
6.6.1 数据一致性概念与分级 /210
6.6.2 二阶段提交 /212
6.6.3 多版本并发控制 /213
6.6.4 分布式一致性协议 /215
6.6.5 数据可用性 /219
6.6.6 数据实时性 /220
6.6.7 备份恢复 /221
第7章 资源管理与调度/223
7.1 云上资源调度的挑战与机遇/224
7.1.1 Serverless 的服务级别协议 / 224
7.1.2 多租户系统 /224
7.1.3 预测模型 /225
7.2 典型资源调度框架/225
7.2.1 Yarn/Yarn2 /225
7.2.2 Mesos /229
7.2.3 Kubernetes /232
7.3 AnalyticDB资源调度实践/238
7.3.1 云库存调度 / 238
7.3.2 资源利用率 /240
7.3.3 按需弹性 /245
第8章 AnalyticDB云上应用实践/247
8.1 实例创建/248
8.2 数据接入/250
8.2.1 Serverless 的服务级别协议 / 250
8.2.2 数据导入方式介绍 /250
8.2.3 数据导入性能优化 /254
8.3 数据类型和基本操作/257
8.3.1 数据类型 / 257
8.3.2 系统函数 /257
8.3.3 物化视图 /258
8.3.4 全文检索 / 259
8.3.5 DDL /262
8.3.6 DML /263
8.3.7 DQL /263
8.3.8 DCL / 264
8.3.9 元数据库数据字典 /264
8.4 查询优化/264
8.4.1 智能诊断与调优 / 264
8.4.2 调优查询 /270
8.5 运维管理/276
8.5.1 工作负载管理 /276
8.5.2 监控与报警 /277
8.5.3 安全管理 /277
8.5.4 备份与恢复 /279
8.5.5 变配与扩容 / 279
8.5.6 维护时间与运维事件 /281
8.5.7 数据资产管理 /282
8.5.8 标签管理 / 283
8.6 *佳实践/283
8.6.1 数据资产管理 /283
8.6.2 数据变更*佳实践 /286
8.6.3 数据查询*佳实践 /287
8.6.4 负载管理*佳实践 /287
8.7 典型应用场景/290
8.7.1 实时数据仓库 / 290
8.7.2 精准营销 /290
8.7.3 商业智能报表 /290
8.7.4 多源联合分析 /291
8.7.5 交互式查询 /291
参考文献/292
相关资料
数据仓库迈向云原生时代的及时之作!作者以其深厚的行业经验和前瞻性视野,系统性地揭示了云原生技术如何重塑数据处理的未来。 周傲英华东师范大学教授、副校长,中国计算机学会数据库专业委员会主任 详尽且深入,本书不仅是一部技术专著,也是一份难得的学习参考资料,它为数据库工程师和学习者提供了很好的理论知识和实操指南。 杜小勇中国人民大学教授、明理书院院长,中国计算机学会数据库专业委员会资深委员
作者简介
李飞飞
阿里云智能高级副总裁、阿里云数据库产品事业部负责人,ACM、CCF和IEEE会士(Fellow)。曾获ACM与IEEE多项大奖,世界互联网大会2019全球领先科技成果奖,浙江省科技进步一等奖,中国电子学会科技进步一等奖等。带领团队研发了阿里云企业级云原生数据库系统PolarDB,云原生数据仓库AnalyticDB,云原生多模数据库Lindorm,以及云数据库RDS,连续进入Gartner全球云数据库市场Cloud DBMS领导者象限。中国计算机学会(CCF)大数据专家委员会常委,数据库专业委员会常委。
周烜
华东师范大学特聘教授,数据科学与工程学院副院长,国家级领军人才。2005年在新加坡国立大学取得博士学位,先后在德国 L3S 研究中心、澳大利亚联邦科工组织、中国人民大学任职,2017年加入华东师范大学。他的研究兴趣包括数据库系统和信息检索技术,曾负责多个国内外的科研项目和工业合作项目,开发各种数据管理系统。获2019年国家科技进步二等奖和2022年国家级教学成果二等奖。..胡卉芪
李飞飞
阿里云智能高级副总裁、阿里云数据库产品事业部负责人,ACM、CCF和IEEE会士(Fellow)。曾获ACM与IEEE多项大奖,世界互联网大会2019全球领先科技成果奖,浙江省科技进步一等奖,中国电子学会科技进步一等奖等。带领团队研发了阿里云企业级云原生数据库系统PolarDB,云原生数据仓库AnalyticDB,云原生多模数据库Lindorm,以及云数据库RDS,连续进入Gartner全球云数据库市场Cloud DBMS领导者象限。中国计算机学会(CCF)大数据专家委员会常委,数据库专业委员会常委。
周烜
华东师范大学特聘教授,数据科学与工程学院副院长,国家级领军人才。2005年在新加坡国立大学取得博士学位,先后在德国 L3S 研究中心、澳大利亚联邦科工组织、中国人民大学任职,2017年加入华东师范大学。他的研究兴趣包括数据库系统和信息检索技术,曾负责多个国内外的科研项目和工业合作项目,开发各种数据管理系统。获2019年国家科技进步二等奖和2022年国家级教学成果二等奖。..胡卉芪
华东师范大学数据科学与工程学院副教授。主要从事数据库系统与分布式系统方面的研究。曾获国家科学技术进步奖、教*育*部科技进步奖(主要参与人)等奖项。长期参与数据科学与工程学科建设,多年来专注于数据管理系统、数据库内核原理与数据等相关课程的教学与学生培养工作。
杨程程
华东师范大学数据科学与工程学院研究员,分别于2012和2017年获得中国科学技术大学计算机科学与技术学院学士和博士学位。先后任职于上海华为、阿联酋起源人工智能研究院以及沙特阿卜杜拉国王科技大学。在SIGMOD、VLDB、ICDE、ISSTA、VLDB Journal、TKDE等领域内顶级学术会议和期刊发表论文20余篇,并获得NPC 2014*佳论文奖。先后承担了国家自然科学基金青年基金、上海市浦江人才计划、教*育*部产学研协同育人以及多项与企业的合作项目,参与了多项国家自然科学基金重点项目、面上项目。研究兴趣包括面向新型存储的数据管理、数据库和人工智能融合、数据清理等。
林亮
阿里巴巴阿里云智能数据库产品事业部研究员,主要从事云原生数据系统与分布式系统方面的研发,负责阿里云自研云原生数据仓库AnalyticDB的研发工作,曾在SIGMOD、VLDB等国际顶级会议发表多篇学术论文,获得浙江省科技进步一等奖。
王远
现任阿里云数据库产品管理与技术架构部负责人、开源PolarDB技术委员会主席,于2002年和2007年在南京大学计算机系先后获得学士与博士学位。在互联网、电力、能源、公安等行业从事大数据平台的研发工作,多次获得省部级科技进步奖及国家级荣誉称号。目前主要研究方向为云原生数据库、实时数仓、大数据与数据湖技术以及一体化数据方案,主导了阿里云瑶池数据库全产品体系设计以及核心云数据库产品的规划、设计及规模化应用工作(包括PolarDB、AnalyticDB、Lindorm、DMS等),目前瑶池数据库服务了云上数十万企业级用户。
-
硅谷之火-人与计算机的未来
¥15.5¥39.8 -
人工智能的底层逻辑
¥55.3¥79.0 -
软件定义网络(SDN)技术与应用
¥26.9¥39.8 -
专业导演教你拍好短视频
¥13.8¥39.9 -
数学之美
¥41.0¥69.0 -
谁说菜鸟不会数据分析(入门篇)(第4版)
¥43.8¥69.0 -
自己动手写PYTHON虚拟机
¥35.0¥79.0 -
Photoshop平面设计实用教程
¥14.5¥39.8 -
计算机网络技术
¥13.9¥33.0 -
Excel函数.公式与图表
¥16.4¥48.0 -
.NET安全攻防指南(下册)
¥89.0¥129.0 -
.NET安全攻防指南(上册)
¥89.0¥129.0 -
大模型实战:微调、优化与私有化部署
¥64.4¥99.0 -
多模态数据融合与挖掘技术
¥34.7¥45.0 -
剪映AI
¥62.6¥88.0 -
FINAL CUT短视频剪辑零基础一本通
¥28.9¥39.8 -
数据挖掘技术与应用
¥46.0¥75.0 -
人工智能安全
¥66.4¥109.0 -
计算智能方法
¥34.3¥49.0 -
AIGC绘画CHATGPT+MIDJOURNEY+NIJIJOURNEY ――成为商业AI设计师
¥77.8¥108.0