- ISBN:9787111731603
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:261
- 出版时间:2023-07-01
- 条形码:9787111731603 ; 978-7-111-73160-3
本书特色
使用Trino高性能分布式SQL查询引擎可以对不同的数据源进行快速交互式分析。在本书中,你将学习如何在不迁移数据的情况下对数据进行分析。需要分析的数据,可以存在于使用Hive的传统数据湖中,或者存在于使用Iceberg、Delta Lake等格式的湖仓一体系统中,或者存在于Cassandra、Kafka或SingleStore等异构系统中,还可以存在于PostgreSQL或Oracle等关系型数据库中。
数据分析师、软件工程师和产品工程师可以学习如何管理、使用Trino,甚至使用Trino进行开发,并使其成为自己的数据平台的关键部分。本书将向你展示如何使用一个Trino查询合并来自多个来源的数据,以便在整个组织中进行数据分析。
通过阅读本书,你将:
? 探索Trino的使用场景,了解与Trino相关的各类工具。
? 学习Trino的内部工作原理,包括如何连接和查询数据源,以及Trino支持的SQL语句、运算符、函数等。
? 了解Trino的安全机制、大规模部署能力、监控工作负载、调优查询,并连接更多应用程序。
? 了解其他组织如何成功应用Trino。
内容简介
本书详细介绍了开源的分布式SQL查询引擎Trino涉及的方方面面的知识。本书共三部分,**部分介绍Trino的发展历史、主要功能以及如何安装和使用它,第二部分介绍Trino的内部架构、部署、连接器和所支持的SQL语句的使用等,第三部分介绍在生产环境中部署Trino的推荐知识,以及一些真实世界的部署案例。通过学习本书,你将了解Trino在解决海量数据分析和查询问题方面的优越性,并学会在现实场景中使用它来高效地解决需要在短时间内返回结果的大数据查询问题。
目录
序1
前言3
**部分 Trino入门
第1章 Trino介绍9
1.1 大数据带来的问题9
1.2 Trino来救场10
1.3 Trino使用场景13
1.4 Trino资源17
1.5 Trino简史21
1.6 小结22
第2章 安装和配置Trino23
2.1 使用Docker容器探索Trino23
2.2 使用归档文件安装Trino24
2.3 添加数据源27
2.4 运行Trino28
2.5 小结28
第3章 使用Trino29
3.1 Trino CLI29
3.2 Trino JDBC驱动34
3.3 Trino与ODBC38
3.4 客户端库38
3.5 Trino Web UI39
3.6 使用Trino执行SQL39
3.7 小结43
第二部分 深入理解Trino
第4章 Trino架构47
4.1 集群中的协调器和工作节点47
4.2基于连接器的架构50
4.3 catalog、schema和表52
4.4 查询执行模型52
4.5 查询计划55
4.6 优化规则59
4.7 实现规则61
4.8 基于代价的优化器63
4.9 使用表统计信息70
4.10 小结72
第5章 生产环境部署74
5.1 配置细节74
5.2 服务端配置74
5.3 日志75
5.4 节点配置76
5.5 JVM配置77
5.6 启动器77
5.7 集群安装79
5.8 使用RPM安装80
5.9在云上安装82
5.10 用Helm chart部署Kubernetes83
5.11 考虑集群规模84
5.12 小结85
第6章 连接器86
6.1 配置87
6.2 RDBMS连接器示例:PostgreSQL87
6.3 TPC-H连接器和TPC-DS连接器93
6.4 用于分布式存储数据源的Hive连接器94
6.5 现代分布式存储管理和分析103
6.6 非关系型数据源105
6.7 Trino JMX连接器105
6.8 black hole连接器107
6.9内存连接器107
6.10 其他连接器108
6.11 小结108
第7章 高级连接器示例109
7.1 用Phoenix连接HBase109
7.2 键值存储连接器示例:Accumulo110
7.3 Apache Cassandra连接器117
7.4 流系统连接器示例:Kafka117
7.5 文档存储连接器示例:Elasticsearch119
7.6 Trino中的联邦查询122
7.7 ETL和联邦查询128
7.8 小结128
第8章 在Trino中使用SQL129
8.1 Trino语句130
8.2 Trino系统表132
8.3 catalog134
8.4 schema135
8.5 information schema136
8.6 表137
8.7 视图143
8.8 会话信息和配置144
8.9 数据类型145
8.10 SELECT语句基础153
8.11 WHERE子句154
8.12 GROUP BY和HAVING子句155
8.13 ORDER BY子句和LIMIT子句157
8.14 JOIN语句157
8.15 UNION、INTERSECT和EXCEPT子句159
8.16 分组操作160
8.17 WITH子句161
8.18 子查询163
8.19 从表中删除数据165
8.20 小结165
第9章 高级SQL特性166
9.1 函数和运算符介绍166
9.2 标量函数和运算符167
9.3 布尔运算符167
9.4逻辑运算符169
9.5 用BETWEEN语句选择范围170
9.6 用IS (NOT) NULL检测值的存在170
9.7 数学函数和运算符170
9.8 三角函数171
9.9 常数和随机函数172
9.10 字符串函数和运算符172
9.11 字符串和映射174
9.12 Unicode174
9.13 正则表达式176
9.14 解嵌套复杂数据类型178
9.15 JSON函数180
9.16 日期和时间函数及运算符180
9.17 直方图183
9.18 聚合函数184
9.19 窗函数187
9.20 lambda表达式189
9.21 地理空间函数189
9.22 预处理语句190
9.23 小结192
第三部分 Trino的实际应用
第10章 安全195
10.1 认证196
10.2 授权199
10.3 加密204
10.4 CA与自签名证书212
10.5 证书认证213
10.6 Kerberos216
10.7 数据源访问和安全配置217
10.8 使用Hive连接器进行Kerberos认证219
10.9 集群分离220
10.10 小结220
第11章 将Trino与其他工具集成221
11.1 使用Apache Superset进行查询、可视化和更多操作221
11.2 使用RubiX提高性能222
11.3 使用Apache Airflow的工作流222
11.4 嵌入式Trino示例:Amazon Athena223
11.5 企业版:Starburst Enterprise和Starburst Galaxy226
11.6 其他集成示例227
11.7 自定义集成228
11.8 小结228
第12章 生产环境中的Trino229
12.1 使用Trino Web UI进行监控229
12.2 Trino SQL查询调优240
12.3 内存管理243
12.4 任务并发性246
12.5 工作节点调度246
12.6 网络数据交换247
12.7 JVM调优247
12.8 资源组249
12.9 小结253
第13章 真实世界案例254
13.1 部署和运行时平台254
13.2 集群规模255
13.3 Hadoop/Hive迁移的使用场景257
13.4 其他数据源257
13.5 用户和流量258
13.6 小结258
总结259
作者简介
Matt Fuller,是Starburst的联合创始人,这是一家数据访问和分析公司。 Manfred Moser,是Starburst的社区倡导者、作家、培训师和软件工程师。 Martin Traverso,是Trino软件基金会的联合创始人、Starburst的首席技术官和Trino的联合创始人。
-
乡村振兴新技术:新时代农村短视频编辑技术基础入门
¥12.8¥32.0 -
AI绘画+AI摄影+AI短视频从入门到精通
¥45.5¥79.8 -
企业AI之旅
¥43.5¥79.0 -
机器学习
¥59.4¥108.0 -
基于知识蒸馏的图像去雾技术
¥61.6¥88.0 -
软件设计的哲学(第2版)
¥51.0¥69.8 -
智能算法优化及其应用
¥52.4¥68.0 -
Photoshop图像处理
¥25.5¥49.0 -
R语言医学数据分析实践
¥72.3¥99.0 -
大模型推荐系统:算法原理、代码实战与案例分析
¥62.3¥89.0 -
剪映 从入门到精通
¥25.7¥59.8 -
游戏造梦师----游戏场景开发与设计
¥67.6¥98.0 -
SAR图像处理与检测
¥35.4¥49.8 -
人工智能
¥29.4¥42.0 -
中文版PHOTOSHOP 2024+AI修图入门教程
¥59.3¥79.0 -
WPS办公软件应用
¥25.2¥36.0 -
格拉斯曼流行学习及其在图像集分类中的应用
¥13.7¥28.0 -
轻松上手AIGC:如何更好地向CHATGPT提问
¥40.3¥62.0 -
元宇宙的理想与现实:数字科技大成的赋能与治理逻辑
¥61.6¥88.0 -
云原生安全:攻防与运营实战
¥66.8¥89.0