机器学习大数据平台的构建、任务实现与数据治理——使用AZURE、DEVOPS、MLOPS
- ISBN:9787302657637
- 装帧:平装-锁线胶订
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:288
- 出版时间:2024-04-01
- 条形码:9787302657637 ; 978-7-302-65763-7
本书特色
机器学习大数据平台的构建、任务实现与数据治理
你需要构建安全、稳定的数据平台,需要可以扩展到任何规模的工作负载。当项目从实验室进入生产环境时,你需要确信它可以应对现实工作中的挑战。本书能够帮助你实现这些需求,将讲述如何设计和实现基于云的、可以轻松监控、扩展和修改的数据基础设施。
通过本书,你将学到构建和维护大型企业大数据平台所需的技能。书中包括设置基础设施、编排、工作负载和治理,写作风格清晰、实用。在学习过程中,你将建立高效的机器学习管道,然后掌握省时的自动化和DevOps解决方案。书中基于Azure的示例很容易在其他云平台上实现。
内容简介
主要内容 ● 数据字典和数据治理 ● 数据质量管控、合规和分发 ● 构建自动化管道以提高可靠性 ● 数据摄取、存储和分发 ● 支持生产环境中的数据建模、分析和机器学习
目录
1.1 什么是数据工程 2
1.2 本书读者对象 3
1.3 什么是数据平台 3
1.3.1 数据平台的构成 4
1.3.2 基础设施即代码,无代码基础设施 6
1.4 使用云构建 7
1.4.1 IaaS、PaaS 和SaaS 7
1.4.2 网络、存储和计算 7
1.4.3 如何使用Azure 8
1.4.4 与Azure 交互 8
1.5 实现Azure 数据平台 11
1.6 本章小结 13
第Ⅰ部分 基础设施
第2 章 存储 17
2.1 在数据平台中存储数据 18
2.1.1 跨多个数据织物存储数据 19
2.1.2 SSOT 20
2.2 Azure Data Explorer简介 22
2.2.1 部署Azure Data Explorer集群 23
2.2.2 使用Azure Data Explorer 26
2.2.3 解决查询限制问题 29
2.3 Azure Data Lake Storage简介 30
2.3.1 创建Azure Data Lake Storage 账户 30
2.3.2 使用Azure Data Lake Storage 31
2.3.3 集成Azure Data Explorer 32
2.4 数据摄取 34
2.4.1 数据摄取频率 34
2.4.2 加载类型 36
2.4.3 数据重建和重新加载 38
2.5 本章小结 41
第3 章 DevOps 43
3.1 什么是DevOps 44
3.2 Azure DevOps 简介 47
3.3 部署基础设施 50
3.3.1 导出Azure Resource Manager 模板 51
3.3.2 创建Azure DevOps 服务连接 54
3.3.3 部署Azure Resource Manager 模板 56
3.3.4 理解Azure Pipelines 60
3.4 部署Azure Data Explorer对象和分析 61
3.4.1 使用Azure DevOps 市场扩展 63
3.4.2 将所有内容都存储在Git并自动部署所有内容 67
3.5 本章小结 68
第4 章 编排 69
4.1 导入Bing COVID-19 开放数据集 70
4.2 Azure Data Factory 简介 72
4.2.1 设置数据源 73
4.2.2 设置数据接收器 75
4.2.3 设置管道 79
4.2.4 设置触发器 82
4.2.5 使用Azure Data Factory进行编排 84
4.3 Azure Data Factory 的DevOps 84
4.3.1 从Git 部署Azure Data Factory 87
4.3.2 设置访问控制 88
4.3.3 部署生产环境的Azure Data Factory 90
4.3.4 小结 92
4.4 使用Azure Monitor 进行监控 93
4.5 本章小结 95
第Ⅱ部分 具体的工作任务
第5 章 数据处理 99
5.1 数据建模技术 100
5.1.1 规范化和反规范化 100
5.1.2 数据仓库 103
5.1.3 半结构化数据 104
5.1.4 小结 107
5.2 身份钥匙环 108
5.2.1 构建身份钥匙环 109
5.2.2 理解钥匙环 111
5.3 时间线 113
5.3.1 构建时间线视图 113
5.3.2 使用时间线 115
5.4 应用DevOps 以保证数据处理能够按计划可靠地运行 116
5.4.1 使用Git 追踪和处理函数 116
5.4.2 使用Azure Data Factory构建钥匙环 117
5.4.3 扩展规模 123
5.5 本章小结 127
第6 章 数据分析 129
6.1 开发环境和生产环境分离下如何访问数据 130
6.1.1 对生产数据处理后再部分复制到开发环境 132
6.1.2 将生产数据完全复制到开发环境 133
6.1.3 在开发环境中提供生产数据的只读视图 133
6.1.4 小结 135
6.2 设计数据分析的工作流程 136
6.2.1 原型 138
6.2.2 开发和用户验收测试 139
6.2.3 生产环境 141
6.2.4 小结 143
6.3 让数据科学家能够自助移动数据 144
6.3.1 基本原则和相关背景 145
6.3.2 数据合约 145
6.3.3 管道验证 146
6.3.4 事后分析 150
6.3.5 小结 151
6.4 本章小结 151
第7 章 机器学习 153
7.1 训练一个机器学习模型 154
7.1.1 使用scikit-learn训练模型 155
7.1.2 高消费者模型实现 156
7.2 引入Azure Machine Learning 158
7.2.1 创建工作区 158
7.2.2 创建Azure Machine Learning 计算目标 159
7.2.3 设置Azure Machine Learning 存储 160
7.2.4 在云中运行机器学习 162
7.2.5 小结 167
7.3 MLOps 167
7.3.1 从Git 部署 168
7.3.2 存储管道ID 171
7.3.3 小结 172
7.4 机器学习的编排 172
7.4.1 连接Azure Data Factory与Azure Machine Learning 173
7.4.2 机器学习编排 175
7.4.3 小结 178
7.5 本章小结 179
第Ⅲ部分 数据治理
第8 章 元数据 183
8.1 理解大数据平台中元数据的需求 184
8.2 介绍Azure Purview 186
8.3 维护数据字典 190
8.3.1 设置扫描 190
8.3.2 浏览数据字典 194
8.3.3 小结 195
8.4 管理数据术语表 196
8.4.1 添加新的术语 196
8.4.2 审查术语 198
8.4.3 自定义模板和批量
导入 198
8.4.4 小结 200
8.5 了解Azure Purview 的高级功能 200
8.5.1 追踪数据血缘 200
8.5.2 分类规则 201
8.5.3 REST API 203
8.5.4 小结 204
8.6 本章小结 204
第9 章 数据质量 207
9.1 数据测试概述 207
9.1.1 可用性测试 208
9.1.2 正确性测试 209
9.1.3 完整性测试 210
9.1.4 异常检测测试 212
9.1.5 小结 214
9.2 使用Azure Data Factory进行数据质量检查 214
9.2.1 使用Azure Data Factory进行测试 215
9.2.2 执行测试 218
9.2.3 创建和使用模板 219
9.2.4 小结 221
9.3 扩展数据测试 221
9.3.1 支持多个数据平台 221
9.3.2 按计划运行测试和触发运行测试 223
9.3.3 编写测试 224
9.3.4 存储测试定义和结果 228
9.4 本章小结 231
第10 章 合规 233
10.1 数据分类 234
10.1.1 特征数据 234
10.1.2 遥测数据 235
10.1.3 用户数据 235
10.1.4 用户拥有的数据 236
10.1.5 业务数据 236
10.1.6 小结 236
10.2 将敏感数据变得不那么敏感 237
10.2.1 聚合 238
10.2.2 匿名化 239
10.2.3 伪匿名化 242
10.2.4 数据掩码 246
10.2.5 小结 246
10.3 访问控制模型 247
10.3.1 安全组 248
10.3.2 保护Azure Data Explorer 250
10.3.3 小结 255
10.4 GDPR 和其他考虑因素 256
10.4.1 数据处理 256
10.4.2 数据主体请求 256
10.4.3 其他考虑因素 259
10.5 本章小结 259
第11 章 数据分发 261
11.1 数据分发概述 262
11.2 构建数据API 264
11.2.1 Azure Cosmos DB简介 266
11.2.2 填充Cosmos DB集合 269
11.2.3 检索数据 271
11.2.4 小结 274
11.3 机器学习模型如何对外提供服务 274
11.4 共享数据进行批量复制 274
11.4.1 分离计算资源 275
11.4.2 Azure Data Share简介 277
11.4.3 小结 282
11.5 数据共享的*佳实践 282
11.6 本章小结 284
附录A Azure 服务 285
附录B KQL 快速参考 287
附录C 运行代码示例 289
相关资料
“本书提供了清晰且易于复用的示例,是数据工程方面的权威和全面指南。”
——Kelum Prabath Senanayake Echoworx
“这是一本全方位涵盖解决方案架构师或工程师需要考虑的所有方面的Azure宝典。”
——Albert Nogués, 法国达能
“本书将是一次意义非凡的穿越Azure生态系统之旅。你将快速构建管道并连接组件!”
——Todd Cook,Appen
“本书是机器学习与DevOps工程师通往Azure世界的绝佳教程。”
——Krzysztof Kamyczek,Luxoft
◆◆◆◆◆ 有志于研究Azure数据平台和数据工程?本书将助你腾飞!
——valiant2ex
我目前从事与Azure和Azure数据工厂相关的工作。入职之初,我对这些知识一无所知。本书从数据工程的角度剖析Azure生态系统,使我的技术飞速提升。本书示例丰富,在学习之旅中,我备感愉悦轻松。
Azure是浩瀚的知识海洋,本书就像一盏明灯,将我们引向成功的彼岸。有本书在手,数据工程解决方案学习曲线将变得十分平缓。
◆◆◆◆◆ 关于Azure数据工程的重量级好书。
——Rodrigo de Moura Leite Proenca
我是一名从事数据工程工作的新软件工程师,此前曾读过另一本指南书籍。但遇到这本更好的书,我顿感眼前一亮,相见恨晚!本书知识内涵丰富,极具价值,不仅呈现理论概念,而且列举实例,帮助读者加深理解这些概念。
本书还提供一个GitHub Repo来帮助运行命令,可帮你省下大量时间!还有很棒的图表,让你更直观、更全面、更透彻地理解技术原理。
作者简介
弗拉德·里斯库蒂亚(Vlad Riscutia),是微软的软件架构师。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0