×
Hive数据仓库案例教程

Hive数据仓库案例教程

¥28.4 (6.3折) ?
1星价 ¥31.5
2星价¥31.5 定价¥45.0
全场折上9折期间 满39元包邮
暂无评论
图文详情
  • ISBN:9787121418068
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:其他
  • 页数:200
  • 出版时间:2021-08-01
  • 条形码:9787121418068 ; 978-7-121-41806-8

内容简介

本书系统介绍Hive数据仓库的相关知识和技术。全书共12章,主要内容包括Hive数据仓库基础、Hive环境搭建、Hive基础、Hive数据定义、Hive数据操作、HQL查询、Hive函数、Hive数据压缩、Hive优化、Hive综合案例和上机实验等。本书知识结构简单明了,案例生动具体,内容设计新颖。本书免费提供教学大纲、电子课件和所有案例源代码,书后附有部分习题参考答案。本书可作为普通高校数据科学与大数据相关专业的教材,也可作为想继续深入了解大数据存储和开发的读者的参考书,还可作为各类大数据相关培训的教材。

目录

第1章 Hive数据仓库基础 1 1.1 数据仓库 1 1.1.1 数据仓库的概念 1 1.1.2 数据仓库的特点 3 1.1.3 数据仓库的数据模型 3 1.1.4 数据仓库的体系结构 4 1.2 Hive数据仓库 5 1.3 Hive体系结构及执行流程 6 1.3.1 Hive体系结构 6 1.3.2 Hive执行流程 8 1.4 Hive数据仓库和数据库比较 8 习题1 10 第2章 Hive环境搭建 12 2.1 Hive安装及配置 12 2.1.1 Hive的安装模式 12 2.1.2 Hive安装及配置过程 12 2.1.3 Hive基本操作 14 2.2 MySQL安装及配置 15 2.2.1 MySQL安装包准备 15 2.2.2 MySQL服务器端安装 15 2.2.3 MySQL客户端安装 16 2.3 Hive元数据配置 16 2.3.1 驱动复制 16 2.3.2 配置元数据到MySQL 16 2.3.3 多终端启动Hive 17 2.4 Hive JDBC连接 18 2.4.1 HiveServer2配置 18 2.4.2 HiveServer2启动 18 2.4.3 Beeline启动 18 2.4.4 HiveServer2连接 19 2.5 Hive常见属性配置 19 2.5.1 Hive位置配置 19 2.5.2 信息显示配置 19 2.5.3 运行日志信息配置 20 2.5.4 Hive参数配置方式 20 习题2 21 第3章 Hive基础 23 3.1 Hive数据类型 23 3.1.1 基本数据类型 23 3.1.2 复杂数据类型 24 3.1.3 数据类型转换 24 3.2 Hive运算符 25 3.2.1 算术运算符 25 3.2.2 比较运算符 25 3.2.3 逻辑运算符 26 3.2.4 复杂运算符 26 3.3 Hive数据存储 27 3.4 Hive表存储格式 27 3.4.1 行式存储和列式存储 28 3.4.2 TextFile格式 28 3.4.3 SequenceFile格式 28 3.4.4 ORC格式 29 3.4.5 Parquet格式 29 3.5 Hive常用交互命令 30 3.6 Hive其他操作命令 31 习题3 31 第4章 Hive数据定义 34 4.1 数据仓库的创建 34 4.2 数据仓库的查询 35 4.2.1 显示数据仓库 35 4.2.2 查看数据仓库详情 35 4.2.3 切换数据仓库 35 4.3 数据仓库的修改 35 4.4 数据仓库的删除 36 4.5 表的创建 36 4.5.1 内部表 37 4.5.2 外部表 40 4.5.3 内部表和外部表的转换 42 4.6 分区表 42 4.6.1 分区表基本操作 43 4.6.2 二级分区表创建 45 4.7 桶表 46 4.8 表的修改 48 4.8.1 重命名 48 4.8.2 增加和删除分区 48 4.8.3 修改、增加和替换列 49 4.9 表的删除 51 4.10 视图 52 习题4 57 第5章 Hive数据操作 60 5.1 数据导入 60 5.1.1 Load加载数据 60 5.1.2 Insert插入数据 61 5.1.3 As Select加载数据 63 5.1.4 Location加载数据 63 5.1.5 Import加载数据 64 5.2 数据导出 64 5.2.1 Insert语句导出 64 5.2.2 Hadoop命令导出 65 5.2.3 Hive Shell命令导出 65 5.2.4 Export语句导出 65 5.2.5 Sqoop导出 65 习题5 66 第6章 HQL查询 68 6.1 Select基本查询 68 6.1.1 全表和特定列查询 68 6.1.2 列的别名 69 6.1.3 Limit语句 69 6.2 Where语句 69 6.2.1 Like的使用 71 6.2.2 Rlike的使用 72 6.3 分组语句 74 6.3.1 Group By语句 74 6.3.2 Having语句 74 6.4 Join语句 75 6.4.1 等值连接 75 6.4.2 表的别名 76 6.4.3 内连接 76 6.4.4 左外连接 76 6.4.5 右外连接 76 6.4.6 满外连接 76 6.4.7 左半连接 77 6.4.8 多表连接 77 6.4.9 笛卡儿积Join 78 6.5 排序 79 6.5.1 Order By全局排序 79 6.5.2 字段别名排序 80 6.5.3 多字段排序 81 6.5.4 Sort By内部排序 81 6.5.5 Distribute By分区排序 83 6.5.6 Cluster By排序 83 6.6 抽样查询 84 6.6.1 桶表抽样查询 84 6.6.2 数据块抽样查询 85 6.6.3 随机抽样查询 87 习题6 87 第7章 Hive函数 89 7.1 Hive内置函数 89 7.1.1 数值计算函数 89 7.1.2 聚合函数 90 7.1.3 日期时间函数 91 7.1.4 条件函数 92 7.1.5 字符串处理函数 93 7.1.6 内置函数查看命令 96 7.2 其他常用函数 96 7.2.1 空字段赋值函数 96 7.2.2 列转行函数 97 7.2.3 窗口函数 100 7.2.4 排序函数 106 7.3 自定义函数 108 7.3.1 UDF函数 108 7.3.2 UDTF函数 110 7.3.3 UDAF函数 112 习题7 113 第8章 Hive数据压缩 116 8.1 数据压缩格式 116 8.2 Hadoop压缩配置 117 8.2.1 Snappy压缩方式配置 117 8.2.2 MapReduce支持的压缩编码 118 8.2.3 MapReduce压缩格式参数配置 118 8.3 Map输出压缩开启 119 8.4 Reduce输出压缩开启 119 8.5 常用Hive表存储格式比较 120 8.5.1 存储文件的压缩比测试 120 8.5.2 存储文件的查询速度测试 122 8.6 存储和压缩结合 123 习题8 125 第9章 Hive优化 127 9.1 Hive参数优化 127 9.1.1 本地模式 127 9.1.2 Fetch抓取 128 9.1.3 并行执行 128 9.1.4 严格模式 129 9.1.5 推测执行 130 9.1.6 JVM重用 131 9.2 数据倾斜 131 9.2.1 合理设置Map个数 131 9.2.2 合并小文件 132 9.2.3 复杂文件增加Map个数 132 9.2.4 合理设置Reduce个数 133 9.3 HQL优化 134 9.3.1 Group By优化 134 9.3.2 小表、大表Join 134 9.3.3 大表Join大表 136 9.3.4 MapJoin 137 9.3.5 Count优化 138 9.3.6 行/列过滤优化 139 9.3.7 动态分区调整优化 140 9.3.8 执行计划优化 141 习题9 142 第10章 综合案例1:广电大数据分析 144 10.1 案例需求分析 144 10.2 案例数据及建表 144 10.2.1 原始数据 144 10.2.2 数据表结构 144 10.2.3 创建表 145 10.2.4 向TextFile表导入数据 147 10.2.5 向ORC表导入数据 147 10.3 数据统计分析 147 10.3.1 基本信息查询 147 10.3.2 单个用户观看时长Top20 148 10.3.3 用户观看时长Top20 149 10.3.4 电视观看数Top20 150 10.3.5 电视观看时长Top20 150 10.3.6 用户正常状态及数量 151 第11章 综合案例2:影评大数据分析 152 11.1 案例需求分析 152 11.2 案例数据及建表 152 11.2.1 原始数据 152 11.2.2 创建表及导入数据 153 11.2.3 基本信息查询 153 11.3 数据统计分析 154 11.3.1 评分次数*多的10部电影 154 11.3.2 性别当中评分*高的10部电影 154 11.3.3 一部电影各年龄段的平均影评 156 11.3.4 评分*高的10部电影的平均影评分 156 11.3.5 好片*多年份的*好看电影Top10 157 11.3.6 评分*高的10部Comedy类电影 158 11.3.7 各种类型电影中评价*高的5部电影 159 第12章 上机实验 163 实验1 Hive安装部署 163 实验2 Hive数据定义 165 实验3 Hive数据操作 167 实验4 Hive分区表和桶表 171 实验5 Hive查询 174 实验6 Hive分组排序 177 实验7 Hive JDBC连接 179 实验8 Hive UDF 182 附录A Hive常用网址 185 附录B 常见错误及解决方案 186 附录C 部分习题答案 188 参考文献 191
展开全部

作者简介

王剑辉,沈阳师范大学数学与系统科学学院教授,长期从事Web应用程序设计,Hive数据仓库,Hadoop大数据技术、Java程序设计、人工智能等方面的科研与教学工作。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航