HIVE编程技术与应用/孙帅/普通高等教育新工科人才培养规划教材(大数据专业)
- ISBN:9787517069140
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:153
- 出版时间:2017-03-01
- 条形码:9787517069140 ; 978-7-5170-6914-0
内容简介
本书通过原理加案例的方式系统地讲解了Hive编程技术,使读者能够全面地了解使用Hive的开发流程。书中精心安排了Hive的原理分析、架构特点、环境搭建、HiveQL使用等内容,给出了大量的开发案例及其开发过程,使读者对Hive开发有直观的印象。全书共10章:前6章系统讲解Hive工作原理、特点,Hive架构,HiveQL表操作,HiveQL数据操作,HiveQL查询,Hive安装与配置,Hive自定义函数;第8、9、10章是综合案例部分,通过案例帮助读者掌握整个大数据项目的开发流程,包括数据清洗、数据处理、数据导入导出。本书知识结构简单明了,案例生动具体,内容设计新颖,思路清晰。本书不仅可作为普通高校大数据相关专业的教材,也可以作为想继续深入了解大数据编程的读者的参考书,还可作为各类相关培训班的培训教材。
目录
第1章 Hive介绍
1.1 Hive工作原理
1.2 Hive的数据类型
1.3 Hive的特点
1.4 本章小结
第2章 Hive架构
2.1 Hive用户接口
2.1.1 Hive CLI
2.1.2 HWI
2.1.3 Thrift服务
2.2 Hive元数据库
2.2.1 Hive元数据表结构
2.2.2 Hive元数据的三种存储模式
2.3 Hive数据存储
2.4 Hive文件格式
2.4.1 TextFile格式
2.4.2 SequenceFile格式
2.4.3 RCFile格式
2.4.4 ORC格式
2.5 本章小结
第3章 HiveQL表操作
3.1 内部表
3.2 外部表
3.3 分区表
3.3.1 静态分区
3.3.2 动态分区
3.4 桶表
3.5 视图
3.5.1 使用视图降低查询复杂度
3.5.2 使用视图来限制基于条件过滤的数据
3.5.3 动态分区中的视图和map类型
3.6 本章小结
第4章 HiveQL数据操作
4.1 装载数据到表中
4.2 通过查询语句向表中插入数据
4.3 单个查询语句中创建并加载数据
4.4 导出数据
4.5 本章小结
第5章 HiveQL查询
5.1 SELECT…FROM语句
5.1.1 使用正则表达式来指定列的
5.1.2 使用列值进行计算
5.1.3 算述运算符
5.1.4 使用函数
5.1.5 LIMIT语句
5.1.6 列别名
5.1.7 嵌套SELECT语句
5.1.8 CASE…WHEN…THEN语句
5.2 WHERE语句
5.2.1 谓词操作符
5.2.2 关于浮点数比较
5.2.3 LIKE和RLIKE
5.3 GROtJPBY语句
5.4.JOIN语句
5.4.1 INNER JOIN
5.4.2 JOIN优化
5.4.3 LEFTOUTER JOIN
5.4.4 R1GHTOUTER JOIN
5.4.5 FULLOUTER JOIN
5.4.6 LEFT SEMI JOIN
5.4.7 笛卡尔积JOIN
5.4.8 mad-side JOIN
5.5 ORDER BY和SOPT BY
5.6 含有SOftT BY的DISTRIBIJTE BY
5.7 CLUSTER BY
5.8 类型转换
5.9 抽样查询
5.9.1 数据块抽样
5.9.2 分桶表的输入裁剪
5.1 0LINIONALL
5.1 1本章小结
第6章 Hive配置与应用
6.1 Hive安装与配置
6.2 Hive访问
6.3 Hive基本操作
6.3.1 Hive CLI命令行操作讲解
6.3.2 Hive的数据类型
6.3.3 Hive表的创建
6.3.4 Hive数据导入
6.3.5 Hive数据导出
6.4 Hive数据定义
6.4.1 内部表与外部表的区别
6.4.2 内部表建立
6.4.3 外部表建立
6.4.4 表的分区与桶的建立
6.4.5 删除表与修改表结构
6.4.6 HiveQL简单查询语句
6.4.7 WHERE语句
6.5 Hive高级查询
6.6 本章小结
第7章Hive自定义函数
7.1 LIDF
7.2 UDTF
7.3 UDAF
7.4 Hive函数综合案例
7.4.1 Row-Sequence实现列自增长
7.4.2 列转行和行转列
7.5 本章小结
第8章Hive综合案例(一)
8.1 项目背景与数据情况
8.2 关键指标KPI
8.3 开发步骤分析
8.4 表结构设计
8.5 数据清洗过程
8.5.1 定期上传日志至HDFS
8.5.2 编写.MapReduce程序清理日志
8.5.3 定期清理日志至HDFS
8.5.4 查询清洗前后的数据
8.6 数据统计分析
8.6.1 借助Hive进行统计
8.6.2 使用HiveQL统计关键指标
8.7 本章小结
第9章Hive综合案例(二)
9.1 项目应用场景
9.2 设计与实现
9.2.1 日志格式分析
9.2.2 建立表
9.2.3 程序设计
9.2.4 编码实现
9.2.5 运行并测试
9.3 本章小结
第10章Hive综合案例(三)
10.1 应用场景
10.2 设计与实现
10.2.1 数据处理
10.2.2 使用Hive对清洗后的数据进行多维分析
10.2.3 在MySQL中建立数据库
10.2.4 使用sqoop把分析结果导入到MySQL中
10.2.5 程序设计与实现
10.2.6 运行并测试
10.3 本章总结
附录
作者简介
孙帅,中关村软件园百知教育课程研发部总监,曾主持开发项目:易宝支付3代平台系统、易宝支付风控系统、GDB敏捷开发平台、精品科技期刊全文数据库和网络服务系统、国家科技图书文献中心NSTL网络服务系统、万方数据知识服务平台、的士通3G项目、凤凰网视频3G项目。
-
深度学习的数学
¥43.5¥69.0 -
全图解零基础word excel ppt 应用教程
¥19.0¥48.0 -
机器学习
¥59.4¥108.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥31.9¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥22.1¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥83.3¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0 -
贝叶斯推理与机器学习
¥139.3¥199.0