暂无评论
图文详情
- ISBN:9787560659787
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:26cm
- 页数:251页
- 出版时间:2021-03-01
- 条形码:9787560659787 ; 978-7-5606-5978-7
内容简介
本书旨在指导高职院校学生对大数据技术进行入门学习,以任务驱动为导向,系统介绍了大数据技术基础知识及应用案例。全书共分为六大项目,具体包括大数据与大数据时代、大数据处理平台、Hadoop开发环境的搭建、数据采集与预处理、数据计算与数据存储、数据分析与可视化。 本书可作为高职院校大数据应用技术、软件技术等专业学生的专业基础课教材,也可作为其他计算机相关专业学生的选修课程教材以及大数据技术爱好者的自学参考书。
目录
项目一 大数据与大数据时代 1
任务1-1 认识大数据时代 2
1.1.1 大数据时代 3
1.1.2 大数据时代到来的原因 3
1.1.3 大数据时代产生的变革 7
任务1-2 掌握大数据基本特征和处理流程 12
1.2.1 数据的定义和分类 13
1.2.2 大数据的定义 13
1.2.3 大数据的特征 13
1.2.4 大数据处理流程 15
任务1-3 大数据技术的发展历程 16
任务1-4 大数据产业结构及行业应用 18
1.4.1 大数据产业结构 18
1.4.2 大数据、云计算、人工智能、物联网的深度融合 24
1.4.3 大数据技术在各行业领域的应用案例 26
任务1-5 了解大数据行业的岗位需求 39
1.5.1 大数据行业的岗位需求 39
1.5.2 高职院校学生在大数据行业的就业定位 41
小结 42
课后习题 43
项目二 大数据处理平台 44
任务2-1 构建大数据处理平台的原因 46
2.1.1 大数据时代的数据类型 46
2.1.2 传统数据处理平台遇到的问题 48
2.1.3 大数据处理平台 49
任务2-2 *早的大数据生态系统—Hadoop 50
2.2.1 Hadoop的简介和发展 50
2.2.2 Hadoop的设计思想和特点 53
2.2.3 Hadoop的两大基础组件 54
2.2.4 Hadoop生态系统的架构和其他组件 57
任务2-3 大数据处理平台架构 61
2.3.1 大数据计算模式 61
2.3.2 大数据处理平台的基本架构及数据处理流程 62
2.3.3 主流大数据处理平台的架构 63
2.3.4 大数据处理平台架构案例介绍 67
小结 73
课后习题 73
项目三 Hadoop开发环境的搭建 74
任务3-1 VMware虚拟机的安装 76
任务3-2 VMware上Ubuntu系统的安装和配置 80
3.2.1 Ubuntu系统的安装 80
3.2.2 Ubuntu系统的网络设置 89
任务3-3 Ubuntu系统上Hadoop的安装和配置 95
3.3.1 Java环境的安装和配置 96
3.3.2 SSH的安装以及免密码登录的设置 97
3.3.3 Hadoop的安装和配置 99
任务3-4 Hadoop下的词频统计 105
小结 108
课后习题 108
项目四 数据采集与预处理 109
任务4-1 数据采集初识 111
4.1.1 传统数据采集和大数据采集 112
4.1.2 大数据采集方式 114
4.1.3 大数据采集工具 116
4.1.4 数据预处理 121
任务4-2 互联网数据采集 122
4.2.1 爬虫 122
4.2.2 爬虫编程语言及爬虫分类 123
任务4-3 Windows下Python爬虫开发环境的搭建 126
4.3.1 Windows下Python3.x的安装和环境变量的配置 126
4.3.2 requests和Beautiful Soup包的安装 129
4.3.3 PyCharm的安装和使用 130
任务4-4 Python爬虫应用程序的编写 134
4.4.1 爬虫爬取数据的过程 134
4.4.2 网页的基本结构 134
4.4.3 网站数据的抓取 135
4.4.4 网站数据的解析与数据清洗 139
4.4.5 数据的爬取与预处理 142
小结 150
课后习题 151
项目五 数据计算与数据存储 152
任务5-1 大数据计算框架初识 154
5.1.1 大数据计算和传统数据计算的区别 155
5.1.2 常见的大数据计算框架简介 157
任务5-2 大数据存储初识 165
5.2.1 分布式文件系统 166
5.2.2 NoSQL数据库简介 167
5.2.3 HBase简介 168
任务5-3 Spark和HBase开发环境的搭建 171
5.3.1 HBase的安装和配置 171
5.3.2 Spark的安装和配置 175
任务5-4 Spark应用程序的编写 179
5.4.1 Linux下Scala IDE For Eclipse工具的安装和配置 179
5.4.2 Spark应用程序的编写及打包 182
5.4.3 Spark应用程序jar包的提交 200
小结 202
课后习题 202
项目六 数据分析与可视化 203
任务6-1 大数据分析初识 206
6.1.1 大数据分析简介 207
6.1.2 Python大数据分析环境的搭建 209
6.1.3 常见的大数据分析方法 218
任务6-2 大数据可视化初识 231
6.2.1 大数据可视化的概念 231
6.2.2 常用的数据可视化工具 236
任务6-3 房屋数据分析可视化案例编程 239
6.3.1 PySpark的配置和使用 239
6.3.2 Spark应用程序的编写 241
小结 250
课后习题 250
参考文献 251
展开全部
本类五星书
本类畅销
-
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
落洼物语
¥8.7¥28.0 -
中国当代文学名篇选读
¥19.1¥53.0 -
中医基础理论
¥50.7¥59.0 -
北大人文课(平装)
¥13.9¥45.0 -
外国教育史-第2版
¥24.4¥40.0 -
宪法-第二版
¥12.2¥29.0 -
当代中国政府与政治 第二版
¥57.8¥68.0 -
EPLAN电气设计
¥29.9¥39.8 -
闯进数学世界――探秘历史名题
¥21.3¥32.8 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
金融学
¥29.9¥49.0 -
计算机操作系统教程(第4版)(清华大学计算机系列教材)
¥31.9¥49.0 -
三国史
¥27.5¥50.0 -
飞机总体设计
¥46.8¥78.0 -
古代汉语(第四册)
¥16.1¥35.0 -
编辑审稿实务教程
¥35.1¥45.0 -
管理学:原理与方法(第7版)(博学.大学管理类)/周三多
¥30.9¥49.0 -
(平装)北大必修课:北大口才课
¥12.2¥45.0