暂无评论
图文详情
- ISBN:9787121413650
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:292
- 出版时间:2021-06-01
- 条形码:9787121413650 ; 978-7-121-41365-0
内容简介
本书以案例为驱动,系统介绍Hadoop大数据平台技术及其应用,Hadoop生态圈组件的工作机制、管理与开发,以及基于Hadoop大数据平台的大数据业务解决方案。全书共10章,包括Hadoop分布式集群、伪分布式集群的安装与配置,Hadoop平台开发工具的安装与配置,大数据存储与管理技术(分布式文件系统、分布式数据库HBase)、大数据分析技术(MapReduce计算框架、数据仓库Hive)、大数据迁移工具(Sqoop)、大数据采集工具(Flume),并利用Hadoop生态圈组件构建一个网站日志分析项目的解决方案,完成整个大数据业务处理流程。本书适合作为高等院校大数据相关专业的教材,也适合作为Hadoop大数据平台技术的初学者,以及初、中级Hadoop大数据平台管理与开发人员的培训教材。
目录
第1章 大数据技术与Hadoop概述
1.1 大数据技术概述
1.1.1 大数据技术发展
1.1.2 大数据基本特征
1.1.3 大数据关键技术
1.1.4 大数据技术应用
1.2 Hadoop概述
1.2.1 Hadoop简介
1.2.2 Hadoop核心组件
1.2.3 Hadoop生态圈组件
1.2.4 Hadoop架构
本章小结
思考题与习题
第2章 Hadoop平台和开发环境的安装与配置
2.1 Hadoop平台安装准备
2.1.1 VMware安装与配置
2.1.2 Ubuntu安装与配置
2.1.3 网络配置
2.2 Hadoop伪分布式集群安装与配置
2.2.1 创建用户hadoop
2.2.2 修改主机名与域名映射
2.2.3 SSH免密码登录设置
2.2.4 安装Java环境
2.2.5 伪分布式集群安装与配置
2.3 Eclipse开发环境安装与配置
2.3.1 Maven安装与配置
2.3.2 Eclipse安装与配置
2.3.3 Eclipse中Maven设置
本章小结
思考题与习题
第3章 分布式文件系统
3.1 HDFS概述
3.1.1 HDFS架构
3.1.2 HDFS设计目标
3.1.3 HDFS高可用架构
3.1.4 HDFS架构的优劣性
3.2 HDFS工作机制
3.2.1 HDFS数据存储策略
3.2.2 HDFS数据读取策略
3.2.3 HDFS数据错误与恢复
3.2.4 HDFS数据读写过程
3.3 HDFS Shell管理
3.3.1 HDFS文件操作命令
3.3.2 HDFS系统管理命令
3.3.3 HDFS Shell操作实例
3.4 HDFS Java开发
3.4.1 HDFS Java程序设计基础
3.4.2 HDFS程序设计流程
3.4.3 常用HDFS Java API
3.4.4 HDFS开发实例
本章小结
思考题与习题
第4章 MapReduce
4.1 MapReduce概述
4.1.1 MapReduce简介
4.1.2 MapReduce计算模型
4.1.3 MapReduce编程模型
4.2 MapReduce架构
4.2.1 MapReduce V1架构
4.2.2 MapReduce V2架构
4.3 MapReduce编程组件
4.3.1 MapReduce编程流程
4.3.2 InputFormat
4.3.3 InputSplit
4.3.4 RecordReader
4.3.5 Mapper
4.3.6 Shuffle
4.3.7 Reducer
4.3.8 OutputFormat
4.3.9 序列化与反序列化
4.4 WordCount程序设计实例
4.4.1 准备输入文件
4.4.2 创建Maven工程
4.4.3 配置Maven工程
4.4.4 程序设计
4.4.5 工程打包、部署与运行
4.4.6 定制WordCount程序设计
4.5 MapReduce开发典型案例
4.5.1 数据去重
4.5.2 数据排序
4.5.3 计算平均值
4.6 网站浏览量统计分析
本章小结
思考题与习题
第5章 分布式数据库HBase
5.1 HBase概述
5.1.1 HBase简介
5.1.2 HBase特性
5.1.3 HBase适用场景
5.2 HBase数据模型
5.2.1 HBase基本概念
5.2.2 概念视图
5.2.3 物理视图
5.3 HBase体系结构
5.4 HBase安装与配置
5.4.1 HBase运行模式
5.4.2 HBase安装准备
5.4.3 HBase伪分布式集群安装与配置
5.5 HBase Shell
5.5.1 HBase Shell简介
5.5.2 General命令组
5.5.3 DDL命令组
5.5.4 DML命令组
5.5.5 查询过滤器
5.6 HBase程序设计
5.6.1 HBase Java API简介
5.6.2 Hbase表管理程序设计
5.6.3 HBase数据操作程序设计
5.6.4 HBase Filter API
5.7 HBase与MapReduce融合
5.7.1 HBase与MapReduce融合概述
5.7.2 HBase MapReduce Java API
5.7.3 HBase MapReduce程序设计
5.8 HBase学生成绩分析
5.8.1 任务描述
5.8.2 导入原始数据到HBase
5.8.3 统计学生平均成绩
本章小结
思考题与习题
第6章 数据仓库Hive
6.1 Hive基础
6.1.1 Hive简介
6.1.2 Hive系统架构
6.1.3 Hive工作原理
6.1.4 Hive数据存储模型
6.1.5 Hive数据类型
6.1.6 Hive数据存储格式
6.2 Hive安装与配置
6.2.1 安装MySQL
6.2.2 Hive安装与配置过程
6.3 Beeline
6.3.1 Beeline简介
6.3.2 Beeline基本操作
6.4 Hive DDL操作
6.4.1 Hive数据库管理
6.4.2 Hive表管理
6.4.3 视图管理
6.5 Hive DML操作
6.6 Hive数据查询
6.6.1 Hive SELECT基本语法
6.6.2 无条件查询
6.6.3 有条件查询
6.6.4 查询统计
6.6.5 分组查询
6.6.6 子查询
6.6.7 连接查询
6.6.8 排序
6.6.9 合并操作
6.6.10 复合类型数据查询
6.7 Hive内置函数
6.7.1 数学函数
6.7.2 集合函数
6.7.3 类型转换函数
6.7.4 日期函数
6.7.5 条件函数
6.7.6 字符串函数
6.7.7 内置聚合函数
6.7.8 内置表生成函数
6.7.9 窗口函数
6.7.10 其他函数
6.7.11 词频统计实例
6.8 Hive高级应用
6.8.1 用户自定义函数
6.8.2 Hive与HBase整合
6.9 Hive程序设计
本章小结
思考题与习题
第7章 数据迁移工具Sqoop
7.1 Sqoop概述
7.2 Sqoop安装与配置
7.3 Sqoop常用命令
7.4 Sqoop数据导入
7.4.1 Sqoop命令参数
7.4.2 数据从MySQL导入HDFS
7.4.3 数据从MySQL导入Hive
7.4.4 数据从MySQL导入HBase
7.5 Sqoop数据导出
7.5.1 Sqoop export命令参数
7.5.2 从HDFS导出数据到MySQL
7.5.3 从Hive导出数据到MySQL
7.5.4 中文乱码问题
本章小结
思考题与习题
第8章 数据采集工具Flume
8.1 Flume概述
8.1.1 Flume简介
8.1.2 Flume架构
8.2 Flume安装与配置
8.3 Flume组件
8.3.1 Source组件
8.3.2 Channel组件
8.3.3 Sink组件
8.3.4 Interceptor组件
8.3.5 Selector组件
8.3.6 Sink Processor
8.4 Flume数据采集案例与实施
8.4.1 实时采集本地文件到HDFS
8.4.2 多源与多目的地数据采集
本章小结
思考题与习题
第9章 网站日志分析
9.1 需求分析
9.1.1 网站日志分析的必要性
9.1.2 网站日志数据说明
9.1.3 网站日志分析KPI指标
9.2 方案设计
9.3 数据采集
9.4 数据预处理
9.5 数据分析
9.6 数据分析结果导出及可视化
本章小结
思考题与习题
第10章 Hadoop与HBase分布式集群安装与配置
10.1 Hadoop分布式集群安装与配置
10.2 HBase分布式集群安装与配置
本章小结
思考题与习题
参考文献
1.1 大数据技术概述
1.1.1 大数据技术发展
1.1.2 大数据基本特征
1.1.3 大数据关键技术
1.1.4 大数据技术应用
1.2 Hadoop概述
1.2.1 Hadoop简介
1.2.2 Hadoop核心组件
1.2.3 Hadoop生态圈组件
1.2.4 Hadoop架构
本章小结
思考题与习题
第2章 Hadoop平台和开发环境的安装与配置
2.1 Hadoop平台安装准备
2.1.1 VMware安装与配置
2.1.2 Ubuntu安装与配置
2.1.3 网络配置
2.2 Hadoop伪分布式集群安装与配置
2.2.1 创建用户hadoop
2.2.2 修改主机名与域名映射
2.2.3 SSH免密码登录设置
2.2.4 安装Java环境
2.2.5 伪分布式集群安装与配置
2.3 Eclipse开发环境安装与配置
2.3.1 Maven安装与配置
2.3.2 Eclipse安装与配置
2.3.3 Eclipse中Maven设置
本章小结
思考题与习题
第3章 分布式文件系统
3.1 HDFS概述
3.1.1 HDFS架构
3.1.2 HDFS设计目标
3.1.3 HDFS高可用架构
3.1.4 HDFS架构的优劣性
3.2 HDFS工作机制
3.2.1 HDFS数据存储策略
3.2.2 HDFS数据读取策略
3.2.3 HDFS数据错误与恢复
3.2.4 HDFS数据读写过程
3.3 HDFS Shell管理
3.3.1 HDFS文件操作命令
3.3.2 HDFS系统管理命令
3.3.3 HDFS Shell操作实例
3.4 HDFS Java开发
3.4.1 HDFS Java程序设计基础
3.4.2 HDFS程序设计流程
3.4.3 常用HDFS Java API
3.4.4 HDFS开发实例
本章小结
思考题与习题
第4章 MapReduce
4.1 MapReduce概述
4.1.1 MapReduce简介
4.1.2 MapReduce计算模型
4.1.3 MapReduce编程模型
4.2 MapReduce架构
4.2.1 MapReduce V1架构
4.2.2 MapReduce V2架构
4.3 MapReduce编程组件
4.3.1 MapReduce编程流程
4.3.2 InputFormat
4.3.3 InputSplit
4.3.4 RecordReader
4.3.5 Mapper
4.3.6 Shuffle
4.3.7 Reducer
4.3.8 OutputFormat
4.3.9 序列化与反序列化
4.4 WordCount程序设计实例
4.4.1 准备输入文件
4.4.2 创建Maven工程
4.4.3 配置Maven工程
4.4.4 程序设计
4.4.5 工程打包、部署与运行
4.4.6 定制WordCount程序设计
4.5 MapReduce开发典型案例
4.5.1 数据去重
4.5.2 数据排序
4.5.3 计算平均值
4.6 网站浏览量统计分析
本章小结
思考题与习题
第5章 分布式数据库HBase
5.1 HBase概述
5.1.1 HBase简介
5.1.2 HBase特性
5.1.3 HBase适用场景
5.2 HBase数据模型
5.2.1 HBase基本概念
5.2.2 概念视图
5.2.3 物理视图
5.3 HBase体系结构
5.4 HBase安装与配置
5.4.1 HBase运行模式
5.4.2 HBase安装准备
5.4.3 HBase伪分布式集群安装与配置
5.5 HBase Shell
5.5.1 HBase Shell简介
5.5.2 General命令组
5.5.3 DDL命令组
5.5.4 DML命令组
5.5.5 查询过滤器
5.6 HBase程序设计
5.6.1 HBase Java API简介
5.6.2 Hbase表管理程序设计
5.6.3 HBase数据操作程序设计
5.6.4 HBase Filter API
5.7 HBase与MapReduce融合
5.7.1 HBase与MapReduce融合概述
5.7.2 HBase MapReduce Java API
5.7.3 HBase MapReduce程序设计
5.8 HBase学生成绩分析
5.8.1 任务描述
5.8.2 导入原始数据到HBase
5.8.3 统计学生平均成绩
本章小结
思考题与习题
第6章 数据仓库Hive
6.1 Hive基础
6.1.1 Hive简介
6.1.2 Hive系统架构
6.1.3 Hive工作原理
6.1.4 Hive数据存储模型
6.1.5 Hive数据类型
6.1.6 Hive数据存储格式
6.2 Hive安装与配置
6.2.1 安装MySQL
6.2.2 Hive安装与配置过程
6.3 Beeline
6.3.1 Beeline简介
6.3.2 Beeline基本操作
6.4 Hive DDL操作
6.4.1 Hive数据库管理
6.4.2 Hive表管理
6.4.3 视图管理
6.5 Hive DML操作
6.6 Hive数据查询
6.6.1 Hive SELECT基本语法
6.6.2 无条件查询
6.6.3 有条件查询
6.6.4 查询统计
6.6.5 分组查询
6.6.6 子查询
6.6.7 连接查询
6.6.8 排序
6.6.9 合并操作
6.6.10 复合类型数据查询
6.7 Hive内置函数
6.7.1 数学函数
6.7.2 集合函数
6.7.3 类型转换函数
6.7.4 日期函数
6.7.5 条件函数
6.7.6 字符串函数
6.7.7 内置聚合函数
6.7.8 内置表生成函数
6.7.9 窗口函数
6.7.10 其他函数
6.7.11 词频统计实例
6.8 Hive高级应用
6.8.1 用户自定义函数
6.8.2 Hive与HBase整合
6.9 Hive程序设计
本章小结
思考题与习题
第7章 数据迁移工具Sqoop
7.1 Sqoop概述
7.2 Sqoop安装与配置
7.3 Sqoop常用命令
7.4 Sqoop数据导入
7.4.1 Sqoop命令参数
7.4.2 数据从MySQL导入HDFS
7.4.3 数据从MySQL导入Hive
7.4.4 数据从MySQL导入HBase
7.5 Sqoop数据导出
7.5.1 Sqoop export命令参数
7.5.2 从HDFS导出数据到MySQL
7.5.3 从Hive导出数据到MySQL
7.5.4 中文乱码问题
本章小结
思考题与习题
第8章 数据采集工具Flume
8.1 Flume概述
8.1.1 Flume简介
8.1.2 Flume架构
8.2 Flume安装与配置
8.3 Flume组件
8.3.1 Source组件
8.3.2 Channel组件
8.3.3 Sink组件
8.3.4 Interceptor组件
8.3.5 Selector组件
8.3.6 Sink Processor
8.4 Flume数据采集案例与实施
8.4.1 实时采集本地文件到HDFS
8.4.2 多源与多目的地数据采集
本章小结
思考题与习题
第9章 网站日志分析
9.1 需求分析
9.1.1 网站日志分析的必要性
9.1.2 网站日志数据说明
9.1.3 网站日志分析KPI指标
9.2 方案设计
9.3 数据采集
9.4 数据预处理
9.5 数据分析
9.6 数据分析结果导出及可视化
本章小结
思考题与习题
第10章 Hadoop与HBase分布式集群安装与配置
10.1 Hadoop分布式集群安装与配置
10.2 HBase分布式集群安装与配置
本章小结
思考题与习题
参考文献
展开全部
作者简介
孙风栋,大连东软信息学院教授,主讲Oracle数据库管理与开发、数据库原理与应用、大数据技术等课程,研究方向是数据库系统及其应用、数据挖掘、大数据应用等。
本类五星书
本类畅销
-
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
落洼物语
¥8.7¥28.0 -
中国当代文学名篇选读
¥19.1¥53.0 -
中医基础理论
¥50.7¥59.0 -
北大人文课(平装)
¥13.9¥45.0 -
外国教育史-第2版
¥24.4¥40.0 -
宪法-第二版
¥12.2¥29.0 -
当代中国政府与政治 第二版
¥57.8¥68.0 -
EPLAN电气设计
¥29.9¥39.8 -
闯进数学世界――探秘历史名题
¥21.3¥32.8 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
金融学
¥29.9¥49.0 -
计算机操作系统教程(第4版)(清华大学计算机系列教材)
¥31.9¥49.0 -
三国史
¥27.5¥50.0 -
飞机总体设计
¥46.8¥78.0 -
古代汉语(第四册)
¥16.1¥35.0 -
编辑审稿实务教程
¥35.1¥45.0 -
管理学:原理与方法(第7版)(博学.大学管理类)/周三多
¥30.9¥49.0 -
(平装)北大必修课:北大口才课
¥12.2¥45.0