- ISBN:9787115537041
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:180
- 出版时间:2020-08-01
- 条形码:9787115537041 ; 978-7-115-53704-1
本书特色
1.囊括大数据的基本知识,也介绍了大数据与云计算、人工智能的关系2.提供PPT等教学资源
内容简介
本书是高校的大数据导论课程教材,清楚地介绍了大数据相关的概念、理论、术语与基础技术,并使用真实连贯的商业案例以及简单的图表,帮助读者更清晰地理解大数据技术。本书可作为高等院校相关专业“大数据基础”“大数据导论”等课程的教材,也可供有一定实践经验的软件开发人员、管理人员和所有对大数据感兴趣的人士阅读。
目录
1.1 什么是大数据 1
1.1.1 大数据的来源 1
1.1.2 大数据的定义 5
1.1.3 从信息技术(IT)转向数据
技术(DT) 5
1.2 大数据的数据特征及对科学研究的
影响 7
1.2.1 大数据的数据特征 7
1.2.2 大数据对科学研究的影响 8
1.3 大数据的数据类型 11
1.4 大数据的价值及相关技术 13
1.4.1 大数据的可用性及衍生
价值 13
1.4.2 大数据存储及处理技术 14
1.5 大数据的发展趋势 15
习题 16
第2章 大数据与云计算 17
2.1 云计算概述 17
2.1.1 云计算的提出 17
2.1.2 云计算的定义 18
2.1.3 云计算的概念模型 19
2.1.4 云计算的特点 20
2.2 云计算的主要部署模式 21
2.2.1 公有云 22
2.2.2 私有云 22
2.2.3 混合云 23
2.3 云计算的主要服务模式 24
2.3.1 基础设施即服务(IaaS) 24
2.3.2 平台即服务(PaaS) 26
2.3.3 软件即服务(SaaS) 26
2.3.4 3种服务模式之间的关系 27
2.4 云计算与大数据体系架构的关系 28
2.4.1 云计算基础设施—
Google平台 28
2.4.2 大数据基础设施—
Hadoop平台 29
2.5 物联网、大数据和云计算之间的
关系 30
2.5.1 认识物联网 31
2.5.2 边缘计算 31
2.5.3 雾计算 33
2.5.4 大数据和云计算之间的
关系 33
习题 34
第3章 从产业结构来探索大数据技术 35
3.1 大数据产业结构概述 35
3.2 大数据的解决方案 37
3.2.1 大数据的产生、采集与处理
方式 37
3.2.2 大数据处理的基本流程及
相应技术 40
3.3 大数据采集技术 43
3.3.1 大数据采集概述 43
3.3.2 日志采集系统—Flume 44
3.3.3 消息采集系统—Kafka 46
3.3.4 Scrapy网络爬虫框架 47
3.4 大数据预处理技术 50
3.4.1 数据预处理 50
3.4.2 数据清洗 51
3.4.3 数据集成 53
3.4.4 数据归约 54
3.5 大数据可视化技术 56
3.5.1 数据可视化的概念 56
3.5.2 数据可视化的分类 57
3.5.3 数据可视化工具 61
3.5.4 大数据可视化技术的
发展方向 63
习题 64
第4章 大数据的硬件架构——集群 65
4.1 集群的来源 65
4.1.1 并行计算机的发展 65
4.1.2 通过计算机食物链理解
集群 68
4.2 集群的产生促进了大数据技术的
发展 70
4.3 集群系统的概念及分类 72
4.3.1 集群的基本概念 72
4.3.2 集群系统的分类 73
4.4 集群的结构模型 75
4.5 集群文件系统 76
习题 79
第5章 大数据开发与计算技术 80
5.1 Hadoop—分布式大数据系统 80
5.1.1 Hadoop概述 80
5.1.2 Hadoop架构 81
5.1.3 Hadoop生态系统 87
5.2 Spark—大规模数据实时处理
系统 89
5.2.1 Spark概述 89
5.2.2 弹性分布式数据集 94
5.2.3 Spark扩展功能 96
5.3 Storm—基于拓扑的流数据实时
计算系统 99
5.3.1 Storm概述 99
5.3.2 Storm的组成结构 101
5.3.3 Storm-Yarn概述 102
5.4 Hadoop、Spark与Storm的比较 103
5.5 大数据开发技术与Web应用
开发技术的比较 105
5.5.1 Web应用开发技术简介 105
5.5.2 大数据开发技术简介 109
5.5.3 大数据开发技术与Web应用
开发技术的应用环境 110
习题 112
第6章 大数据存储技术 113
6.1 数据存储概述 113
6.2 分布式文件系统 115
6.2.1 分布式文件系统的设计
思路 116
6.2.2 *早的分布式文件系统 118
6.2.3 大数据环境下分布式文件
系统的优化思路 119
6.3 结构化大数据的存储—Hive 120
6.3.1 Hive简介 120
6.3.2 Hive架构 121
6.3.3 Hive数据模型与存储 122
6.4 半结构化大数据的存储—HBase 124
6.4.1 HBase简介 124
6.4.2 HBase数据模型 125
6.4.3 存储架构 127
6.5 云存储技术 134
6.5.1 云存储的概念及特性 134
6.5.2 云存储系统的结构模型 136
6.5.3 云存储的应用 138
习题 139
第7章 大数据分析 141
7.1 大数据分析与数据分析的关系 141
7.1.1 对数据分析师的要求 142
7.1.2 对大数据分析师的要求 142
7.2 大数据分析的重要性及认识数据 143
7.2.1 大数据分析的重要性 143
7.2.2 认识数据 145
7.3 统计数据分析 147
7.4 基于机器学习的数据分析 151
7.4.1 机器学习简介 151
7.4.2 机器学习的主要用途 153
7.4.3 有监督学习、无监督学习和
强化学习 154
7.5 经典的机器学习算法 157
7.5.1 分类算法原理 157
7.5.2 决策树分类算法 157
7.5.3 K-均值聚类算法 158
7.5.4 Apriori关联规则算法 159
7.5.5 朴素贝叶斯分类算法 159
7.6 基于图的数据分析 161
7.7 基于自然语言的数据分析 162
习题 163
第8章 大数据与人工智能 164
8.1 人工智能的概念及分类 164
8.2 人工智能的发展史 168
8.3 限制人工智能发展的因素 170
8.4 大数据与人工智能的关系 172
8.5 人工智能核心技术概述 173
8.5.1 深度学习 174
8.5.2 卷积神经网络 175
8.5.3 图像处理 176
8.6 人工智能技术应用 177
习题 179
参考文献 180
作者简介
安俊秀毕业于西安交通大学计算机科学与技术专业,获工学硕士学位。中国计算机学会高级会员;中国电子学会高级会员;成都市科技攻关计划评审专家;成都军区项目评审专家;汕尾市科技顾问团首席顾问。 先后承担了《Linux体系和编程》、《软件项目管理》、《工程导论》、《计算机组成原理》等本科课程;承担了《云计算与大数据》、《并行计算》、《Hadoop处理技术》等研究生课程。 在科研方面,一直从事云计算与大数据、信息智能搜索与计算社会方面的研究工作。近三年发表论文20余篇,其中**作者10余篇,核心期刊以上占5篇。编写出版了多本教材。
-
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
落洼物语
¥8.7¥28.0 -
中国当代文学名篇选读
¥19.1¥53.0 -
中医基础理论
¥50.7¥59.0 -
北大人文课(平装)
¥13.9¥45.0 -
管理学:原理与方法(第7版)(博学.大学管理类)/周三多
¥30.9¥49.0 -
宪法-第二版
¥12.2¥29.0 -
当代中国政府与政治 第二版
¥51.0¥68.0 -
EPLAN电气设计
¥29.9¥39.8 -
闯进数学世界――探秘历史名题
¥21.3¥32.8 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
金融学
¥29.9¥49.0 -
计算机操作系统教程(第4版)(清华大学计算机系列教材)
¥31.9¥49.0 -
三国史
¥27.5¥50.0 -
陶瓷坯釉料制备技术/高职高专材料工程技术专业
¥37.4¥45.0 -
陶瓷工艺技术
¥41.7¥49.0 -
飞机总体设计
¥46.8¥78.0 -
陶瓷工艺学/焦宝祥
¥41.7¥49.0 -
古代汉语(第四册)
¥16.1¥35.0