- ISBN:9787302611653
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:347
- 出版时间:2022-08-01
- 条形码:9787302611653 ; 978-7-302-61165-3
本书特色
本书详解Greenplum构建实时数据仓库,涉及的具体技术包括: MySQL主从复制,保证为业务系统提供可靠的数据库服务,并提供数据来源。 Canal Server实时获取增量MySQL binlog,并将其传入Kafka消息队列。 Kafka将消息持久化,同时提供可伸缩、高吞吐的消息服务。 Canal ClientAdapter负责消费Kafka中的消息,将数据流传输到Greenplum。 Greenplum提供实时ETL功能,自动维护操作数据存储、维度表与事实表。 Greenplum数据库权限与角色管理、数据导入导出、性能优化、监控与维护。 Greenplum集成机器学习库MADlib,对数据进行分析与挖掘。
内容简介
Greenplum分布式数据库具有可选存储模式、事务支持、并行查询与数据装载、容错与故障转移、数据库统计、过程化语言扩展等方面的功能特性,因此Greenplum成为一款理想的分析型数据库产品。本书详解Greenplum数据仓库构建与数据分析技术,配套示例源码。 本书共分10章。内容包括数据仓库简介、数据仓库设计基础、Greenplum与数据仓库、Greenplum安装部署、实时数据同步、实时数据装载、维度表技术、事实表技术、Greenplum运维与监控、集成机器学习库MADlib。 本书适合Greenplum初学者、大数据分析系统设计与开发、数据仓库系统设计与开发、DBA、架构师等相关技术人员阅读,也适合高等院校大数据相关专业的师生作为实训教材。
目录
第1章 数据仓库简介 1
1.1 什么是数据仓库 1
1.1.1 数据仓库的定义 2
1.1.2 建立数据仓库的原因 3
1.2 操作型系统与分析型系统 5
1.2.1 操作型系统 5
1.2.2 分析型系统 7
1.2.3 操作型系统和分析型系统的对比 8
1.3 抽取—转换—装载 10
1.3.1 数据抽取 10
1.3.2 数据转换 12
1.3.3 数据装载 13
1.3.4 开发ETL系统的方法 13
1.4 数据仓库架构 14
1.4.1 基本架构 14
1.4.2 主要数据仓库架构 15
1.4.3 操作型数据存储 19
1.5 实时数据仓库 19
1.5.1 流式处理 20
1.5.2 实时计算 21
1.5.3 实时数据仓库解决方案 24
1.6 小结 26
第2章 数据仓库设计基础 27
2.1 关系数据模型 27
2.1.1 关系数据模型中的结构 27
2.1.2 关系完整性 30
2.1.3 关系数据库语言 31
2.1.4 规范化 32
2.1.5 关系数据模型与数据仓库 34
2.2 维度数据模型 36
2.2.1 维度数据模型建模过程 36
2.2.2 维度规范化 37
2.2.3 维度数据模型的特点 38
2.2.4 星型模式 39
2.2.5 雪花模式 41
2.3 Data Vault模型 43
2.3.1 Data Vault模型简介 43
2.3.2 Data Vault模型的组成部分 43
2.3.3 Data Vault模型的特点 45
2.3.4 Data Vault模型的构建 45
2.3.5 Data Vault模型实例 46
2.4 数据集市 50
2.5 数据仓库实施步骤 51
2.6 小结 54
第3章 Greenplum与数据仓库 55
3.1 Greenplum简介 55
3.1.1 历史与现状 55
3.1.2 MPP——一切皆并行 56
3.2 Greenplum系统架构 57
3.2.1 Greenplum与PostgreSQL 57
3.2.2 Master 58
3.2.3 Segment 58
3.2.4 Interconnect 59
3.3 Greenplum功能特性 59
3.3.1 存储模式 59
3.3.2 事务与并发控制 63
3.3.3 并行查询 69
3.3.4 并行数据装载 72
3.3.5 冗余与故障转移 73
3.3.6 数据库统计 76
3.4 为什么选择Greenplum 79
3.4.1 Greenplum还是SQL-on-Hadoop 79
3.4.2 适合DBA的解决方案 82
3.4.3 Greenplum的局限 86
3.5 小结 87
第4章 Greenplum安装部署 88
4.1 平台需求 88
4.1.1 操作系统 88
4.1.2 硬件和网络 89
4.1.3 文件系统 90
4.2 容量评估 90
4.2.1 可用磁盘空间 91
4.2.2 用户数据容量 91
4.2.3 元数据和日志空间 92
4.2.4 RAID划分*佳实践 92
4.3 操作系统配置 93
4.3.1 安装操作系统 94
4.3.2 禁用SELinux和防火墙 95
4.3.3 操作系统推荐配置 95
4.3.4 时钟同步 99
4.3.5 创建Greenplum管理员账号 100
4.3.6 安装JDK(可选) 101
4.4 安装Greenplum软件 101
4.4.1 安装软件包 101
4.4.2 配置免密SSH 102
4.4.3 确认软件安装 103
4.5 初始化Greenplum数据库系统 103
4.5.1 创建数据存储区 103
4.5.2 验证系统 104
4.5.3 初始化数据库 106
4.5.4 设置Greenplum环境变量 108
4.6 允许客户端连接 109
4.7 修改Greenplum配置参数 110
4.8 后续步骤 112
4.8.1 创建临时表空间 112
4.8.2 创建数据库用户 113
4.9 Greenplum升级 114
4.9.1 升级条件 114
4.9.2 升级步骤 114
4.10 小结 114
第5章 实时数据同步 116
5.1 数据抽取方式 116
5.1.1 基于源数据的CDC 117
5.1.2 基于触发器的CDC 118
5.1.3 基于快照的CDC 119
5.1.4 基于日志的CDC 119
5.2 MySQL数据复制 120
5.2.1 复制的用途 121
5.2.2 二进制日志binlog 121
5.2.3 复制的步骤 122
5.3 使用Kafka 124
5.3.1 Kafka基本概念 124
5.3.2 Kafka消费者与分区 127
5.4 选择主题分区数 129
5.4.1 使用单分区 129
5.4.2 如何选定分区数量 131
5.5 Maxwell + Kafka + Bireme 132
5.5.1 总体架构 132
5.5.2 Maxwell安装配置 135
5.5.3 Bireme安装配置 137
5.5.4 如何保证数据的顺序消费 141
5.5.5 实时CDC 142
5.6 Canal Server + Kafka + Canal ClientAdapter 148
5.6.1 总体架构 148
5.6.2 Canal Server安装配置 150
5.6.3 Canal ClientAdapter安装配置 152
5.6.4 配置HA模式 154
5.6.5 实时CDC 157
5.6.6 消费延迟监控 158
5.7 小结 161
第6章 实时数据装载 162
6.1 建立数据仓库示例模型 163
6.1.1 业务场景 163
6.1.2 建立数据库表 165
6.1.3 生成日期维度数据 173
6.2 初始装载 173
6.2.1 数据源映射 174
6.2.2 确定SCD处理方法 174
6.2.3 实现代理键 175
6.2.4 执行初始装载 175
6.3 实时装载 178
6.3.1 识别数据源与装载类型 178
6.3.2 配置增量数据同步 179
6.3.3 在Greenplum中创建规则 180
6.3.4 启动实时装载 183
6.3.5 测试 184
6.4 动态分区滚动 187
6.5 小结 189
第7章 维度表技术 190
7.1 增加列 190
7.2 维度子集 197
7.3 角色扮演维度 200
7.4 层次维度 205
7.4.1 固定深度的层次 205
7.4.2 多路径的层次 207
7.4.3 参差不齐的层次 209
7.5 退化维度 211
7.6 杂项维度 215
7.7 维度合并 220
7.8 分段维度 225
7.9 小结 230
第8章 事实表技术 231
8.1 事实表概述 231
8.2 周期快照 232
8.3 累积快照 236
8.4 无事实的事实表 245
8.5 迟到的事实 248
8.6 累积度量 256
8.7 小结 262
第9章 Greenplum运维与监控 263
9.1 权限与角色管理 263
9.1.1 Greenplum中的角色与权限 263
9.1.2 管理角色及其成员 264
9.1.3 管理对象权限 266
9.1.4 口令加密 267
9.2 数据导入导出 268
9.2.1 file://协议及其外部表 268
9.2.2 gpfdist及其外部表 270
9.2.3 基于Web的外部表 271
9.2.4 外部表错误处理 274
9.2.5 使用gpload导入数据 274
9.2.6 使用COPY互拷数据 276
9.2.7 导出数据 278
9.2.8 格式化数据文件 280
9.3 性能优化 281
9.3.1 常用优化手段 281
9.3.2 控制溢出文件 283
9.3.3 查询剖析 283
9.4 例行监控 287
9.4.1 检查系统状态 287
9.4.2 检查磁盘空间使用 289
9.4.3 检查数据分布倾斜 290
9.4.4 查看数据库对象的元数据信息 292
9.4.5 查看会话的内存使用信息 292
9.4.6 查看工作文件使用信息 293
9.4.7 查看服务器日志文件 293
9.5 例行维护 296
9.5.1 定期VACUUM 296
9.5.2 定期维护系统目录 297
9.5.3 加强的系统目录维护 297
9.5.4 为查询优化执行VACUUM与ANALYZE 298
9.5.5 自动收集统计信息 299
9.5.6 重建索引 299
9.5.7 管理数据库日志文件 299
9.6 推荐的监控与维护任务 300
9.6.1 数据库实例状态监控 300
9.6.2 硬件和操作系统监控 301
9.6.3 系统目录表监控 302
9.6.4 数据库维护 302
9.6.5 补丁与升级 303
9.7 小结 304
第10章 集成机器学习库MADlib 305
10.1 MADlib的基本概念 305
10.1.1 MADlib是什么 305
10.1.2 MADlib的设计思想 306
10.1.3 MADlib的工作原理 307
10.1.4 MADlib的执行流程 308
10.1.5 MADlib的基础架构 308
10.2 MADlib的功能 309
10.2.1 MADlib支持的模型类型 309
10.2.2 MADlib主要的功能模块 310
10.3 MADlib的安装与卸载 313
10.3.1 确定安装平台 313
10.3.2 安装MADlib 314
10.3.3 卸载MADlib 315
10.4 MADlib示例——使用矩阵分解实现用户推荐 316
10.4.1 低秩矩阵分解 316
10.4.2 奇异值分解 325
10.5 模型评估 339
10.5.1 交叉验证 340
10.5.2 MADlib的交叉验证相关函数 342
10.5.3 交叉验证示例 344
10.6 小结 346
作者简介
王雪迎 ,毕业于中国地质大学计算机专业,高级工程师,20年数据库、数据仓库相关技术工作经验。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。著有图书《Greenplum构建实时数据仓库实践》《Hadoop构建数据仓库实践》《HAWQ数据仓库与数据挖掘实战》《SQL机器学习库MADlib技术解析》《MySQL高可用实践》。
-
全图解零基础word excel ppt 应用教程
¥16.3¥48.0 -
C Primer Plus 第6版 中文版
¥62.6¥108.0 -
零信任网络:在不可信网络中构建安全系统
¥34.2¥59.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
硅谷之火-人与计算机的未来
¥20.3¥39.8 -
情感计算
¥66.8¥89.0 -
大模型RAG实战 RAG原理、应用与系统构建
¥74.3¥99.0 -
大学计算机基础实验教程(MS Office版)——面向数据分析能力培养
¥29.1¥39.8 -
LINUX企业运维实战(REDIS+ZABBIX+NGINX+PROMETHEUS+GRAFANA+LNMP)
¥51.8¥69.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥70.0¥89.8 -
LINUX实战——从入门到精通
¥52.4¥69.0 -
剪映AI
¥52.8¥88.0 -
快速部署大模型:LLM策略与实践(基于ChatGPT等大语言模型)
¥56.9¥79.0 -
数据驱动的工业人工智能:建模方法与应用
¥68.3¥99.0 -
数据存储架构与技术(第2版)
¥62.9¥89.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
UN NX 12.0多轴数控编程案例教程
¥24.3¥38.0 -
实战知识图谱
¥51.8¥69.0