暂无评论
图文详情
- ISBN:9787560653921
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:26cm
- 页数:164页
- 出版时间:2019-08-01
- 条形码:9787560653921 ; 978-7-5606-5392-1
本书特色
该教材主要讲解了当前流行的数据采集及数据清洗技术,如Datax,Kettle等。本教材基于德拓大数据处理平台,对每一章节中的技术进行了实战演练。*后通过三个综合示例讲解大数据分析过程中的数据采集和数据清洗技术的综合应用。
内容简介
本书以当前流行的大数据采集技术和清洗技术为主, 从大数据采集技术特性和实现入手, 对其基本架构、实现原理、应用部署等方面进行了全面翔实的介绍。本书主要内容包括: 大数据采集技术与应用概述、大数据同步技术 —— Datax、大数据清洗技术 —— Kettle、大数据日志采集技术 —— Logstash等。
目录
第1章 大数据采集技术与应用概述 1
1.1 大数据概述 1
1.1.1 大数据时代 2
1.1.2 大数据的概念 5
1.1.3 大数据的特征 5
1.1.4 大数据的应用 8
1.1.5 大数据关键技术 9
1.1.6 大数据处理流程 10
1.2 大数据采集技术概述 11
1.2.1 数据采集与大数据采集 11
1.2.2 大数据采集流程 14
1.3 大数据采集技术应用 15
1.3.1 大数据处理平台介绍 15
1.3.2 政务大数据融合平台 16
1.3.3 交通大数据融合平台 16
1.3.4 出入境大数据融合平台 17
本章小结 18
课后作业 18
第2章 大数据同步技术——Datax 19
2.1 Datax概述 19
2.1.1 Datax介绍 20
2.1.2 Datax特点 21
2.1.3 Datax结构模式 22
2.1.4 Datax的优势 26
2.2 Datax安装与配置 30
2.2.1 配置Java环境 30
2.2.2 安装Python 31
2.2.3 安装Datax 31
2.3 Datax应用实例 33
2.3.1 跨文件系统数据同步 33
2.3.2 跨数据库数据同步 37
2.3.3 同类数据库数据同步 41
本章小结 43
课后作业 43
第3章 大数据清洗技术——Kettle 44
3.1 Kettle概述 44
3.1.1 Kettle概念 45
3.1.2 Kettle设计原则 47
3.1.3 Kettle设计模块 48
3.1.4 Kettle应用场景 60
3.2 Kettle安装与配置 61
3.2.1 配置Java环境 61
3.2.2 安装Kettle 61
3.2.3 安装MySQL 64
3.3 Kettle应用实例 66
3.3.1 数据表记录去重 66
3.3.2 数据表记录过滤 69
3.3.3 数据表记录聚合 71
本章小结 73
课后作业 73
第4章 大数据日志采集技术——Logstash 74
4.1 Logstash概述 74
4.1.1 Logstash概念 75
4.1.2 Logstash工作原理 75
4.1.3 Logstash优势 76
4.2 Logstash安装与配置 76
4.2.1 安装Logstash 76
4.2.2 配置Logstash 80
4.2.3 Logstash运行方式 94
4.3 Logstash应用实例 95
4.3.1 日志数据整合 95
4.3.2 日志数据过滤 96
4.3.3 日志数据分析 98
本章小结 100
课后作业 100
第5章 大数据实时采集技术——Kafka 101
5.1 Kafka概述 101
5.1.1 Kafka概念与特性 102
5.1.2 Kafka基本架构 103
5.1.3 Kafka应用场景 105
5.2 Kafka安装与部署 105
5.2.1 安装Kafka 106
5.2.2 搭建单机版Kafka 108
5.2.3 搭建多个Broker的Kafka集群 109
5.2.4 搭建完全分布式Kafka集群 111
5.3 Kafka应用实例 113
5.3.1 Kafka生产者实例 113
5.3.2 Kafka消费者实例 119
5.3.3 Kafka生产者与消费者综合实例 124
本章小结 132
课后作业 132
第6章 态势感知——舆情热点大数据平台中的数据采集技术 133
6.1 项目背景 133
6.2 舆情热点大数据平台数据采集需求分析 134
6.2.1 项目目标与意义 134
6.2.2 项目特色 135
6.2.3 项目准备 135
6.2.4 项目需求分析 136
6.3 舆情热点大数据平台数据采集设计与实现 137
6.3.1 舆情热点数据采集 137
6.3.2 舆情热点数据抽取 156
6.3.3 舆情热点数据清洗 160
本章小结 163
课后作业 163
参考文献 164
展开全部
作者简介
致力于“数据智能”的科学研究。基于数据管理领域实践基础,利用创新的超融合大数据技术,DATATOM可以提供数据基础架构、超融合管理平台和数据开发者服务,帮助用户智能化的收集、存储、分类、处理、分享、可视、连接和应用数据,降低用户信息化投入成本,提高数据使用效率,加速数据价值创新应用。
本类五星书
本类畅销
-
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
落洼物语
¥8.7¥28.0 -
中国当代文学名篇选读
¥19.1¥53.0 -
中医基础理论
¥50.7¥59.0 -
北大人文课(平装)
¥13.9¥45.0 -
外国教育史-第2版
¥24.4¥40.0 -
宪法-第二版
¥12.2¥29.0 -
当代中国政府与政治 第二版
¥57.8¥68.0 -
EPLAN电气设计
¥29.9¥39.8 -
闯进数学世界――探秘历史名题
¥21.3¥32.8 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
金融学
¥29.9¥49.0 -
计算机操作系统教程(第4版)(清华大学计算机系列教材)
¥31.9¥49.0 -
三国史
¥27.5¥50.0 -
飞机总体设计
¥46.8¥78.0 -
古代汉语(第四册)
¥16.1¥35.0 -
编辑审稿实务教程
¥35.1¥45.0 -
管理学:原理与方法(第7版)(博学.大学管理类)/周三多
¥30.9¥49.0 -
(平装)北大必修课:北大口才课
¥12.2¥45.0