大数据爬取、清洗与可视化教程
- ISBN:9787121407529
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:308
- 出版时间:2021-03-01
- 条形码:9787121407529 ; 978-7-121-40752-9
本书特色
本书重点介绍大数据爬取、清洗与可视化的具体实施方案,程序设计采用Python 3.x,提供电子课件、程序源代码、习题解答。
内容简介
本书通过实践操作介绍大数据爬取、清洗与可视化的具体实施方案,共10章,包括大数据爬取、清洗与可视化概述,爬虫概述,Requests库,BeautifulSoup爬虫,自动化测试工具Selenium,中型爬虫框架Scrapy,数据存储,数据清洗,Matplotlib可视化,Pyecharts可视化。书中的案例均经过实践验证,可以帮助读者深入理解数据信息在大数据行业中的重要应用。为方便复习和自学,各章均配备丰富的习题。本书可作为高等院校大数据相关专业的教材,也可作为有关专业技术人员的培训教材,同时可作为大数据分析爱好者及从事网络数据安全管理工作人员的参考书。
目录
第1章 大数据爬取、清洗与可视化概述 1
1.1 爬虫概述 1
1.1.1 爬虫简介 1
1.1.2 常见爬虫分类和工具 2
1.2 数据清洗概述 2
1.2.1 数据清洗简介 2
1.2.2 常见数据清洗工具 3
1.3 可视化技术概述 3
1.3.1 数据可视化概述 3
1.3.2 常见可视化工具 5
1.4 相关网络技术简介 5
1.4.1 HTTP 5
1.4.2 HTML 7
1.4.3 XML 10
1.4.4 JSON 13
1.4.5 JavaScript 14
1.4.6 正则表达式 17
1.5 Python开发环境配置 21
1.5.1 在Windows中安装Python 22
1.5.2 在Linux中安装Python 24
1.5.3 Python集成开发环境 26
1.5.4 Python第三方库管理 33
本章小结 35
习题 35
第2章 爬虫概述 36
2.1 爬虫基础概述 36
2.1.1 爬虫概念 36
2.1.2 爬虫基本原理 37
2.2 爬虫规范 39
2.2.1 爬虫尺寸 39
2.2.2 Robots协议 39
2.3 爬虫通用结构 43
2.3.1 爬虫通用结构简介 43
2.3.2 爬虫基本工作流程 43
2.3.3 异常处理机制 44
2.4 爬虫技术 46
2.4.1 urllib 3库 46
2.4.2 网页内容查看 51
2.4.3 XPath 56
本章小结 60
习题 60
第3章 Requests库 62
3.1 Requests库简介与安装 62
3.1.1 Requests库简介 62
3.1.2 Requests库安装 62
3.2 Requests库基本使用 63
3.2.1 Requests库的主要方法 63
3.2.2 发送基本请求 66
3.2.3 响应内容 66
3.2.4 访问异常处理方案 67
3.3 Requests库高级用法 69
3.3.1 定制请求头部 69
3.3.2 设置超时 70
3.3.3 传递参数 70
3.3.4 解析JSON 72
3.4 代理设置 72
3.5 模拟登录 73
3.5.1 保持登录机制 73
3.5.2 使用Cookies登录网站 74
3.5.3 登录流程分析 77
3.5.4 Requests会话对象 78
3.5.5 登录网站实例 80
3.6 资源下载 80
3.7 Requests库应用实例 82
3.7.1 具体功能分析 82
3.7.2 具体代码实现 85
本章小结 86
习题 87
第4章 BeautifulSoup爬虫 88
4.1 BeautifulSoup简介与安装 88
4.1.1 BeautifulSoup简介 88
4.1.2 BeautifulSoup4安装方法 88
4.1.3 BeautifulSoup解析器 90
4.1.4 BeautifulSoup初探 92
4.2 BeautifulSoup对象类型 93
4.2.1 Tag 93
4.2.2 NavigableString 95
4.2.3 BeautifulSoup 96
4.2.4 Comment 96
4.3 BeautifulSoup的遍历与搜索 97
4.3.1 遍历文档树 97
4.3.2 搜索文档树 105
4.4 BeautifulSoup应用实例 110
4.4.1 基于BeautifulSoup的独立数据爬取 110
4.4.2 融合正则表达式的数据爬取 112
本章小结 114
习题 115
第5章 自动化测试工具Selenium 116
5.1 Selenium简介与安装 116
5.1.1 Selenium简介 116
5.1.2 Selenium安装 116
5.2 Selenium基本用法 120
5.2.1 声明浏览器对象 120
5.2.2 访问页面 120
5.3 元素 121
5.3.1 定位元素 121
5.3.2 交互操作元素 126
5.3.3 动作链 127
5.3.4 获取元素属性 128
5.4 Selenium高级操作 129
5.4.1 执行JavaScript 129
5.4.2 前进、后退和刷新操作 130
5.4.3 等待操作 130
5.4.4 处理Cookies 132
5.4.5 处理异常 133
5.5 Selenium实例 134
5.5.1 具体功能分析 134
5.5.2 具体代码实现 135
本章小结 136
习题 137
第6章 中型爬虫框架Scrapy 138
6.1 Scrapy框架简介与安装 138
6.1.1 Scrapy运行机制 138
6.1.2 Scrapy框架简介 139
6.1.3 Scrapy安装 140
6.2 Scrapy命令行工具 141
6.2.1 全局命令 142
6.2.2 Project-only命令 144
6.3 选择器 146
6.3.1 选择器简介 147
6.3.2 选择器基础 147
6.3.3 结合正则表达式 151
6.3.4 嵌套选择器 152
6.4 Scrapy项目开发 152
6.4.1 新建项目 153
6.4.2 定义Items 153
6.4.3 制作爬虫 154
6.4.4 爬取数据 156
6.4.5 使用Items 160
6.5 Item Pipeline 161
6.5.1 Item Pipeline简介 161
6.5.2 Item Pipeline应用 162
6.6 中间件 164
6.6.1 下载器中间件 164
6.6.2 爬虫中间件 168
6.7 Scrapy实例 171
6.7.1 具体功能分析 171
6.7.2 具体代码实现 172
本章小结 174
习题 174
第7章 数据存储 176
7.1 数据存储简介 176
7.1.1 现代数据存储的挑战 176
7.1.2 常用工具 177
7.2 文本文件存储 179
7.2.1 文本数据的读写 179
7.2.2 CSV数据的读写 182
7.2.3 Excel数据的读写 187
7.2.4 JSON对象的读写 193
7.3 MongoDB数据库 197
7.3.1 MongoDB简介 197
7.3.2 MongoDB安装 198
7.3.3 MongoDB数据库操作 202
7.4 数据存储实例 207
7.4.1 具体功能分析 207
7.4.2 具体代码实现 208
本章小结 210
习题 210
第8章 数据清洗 212
8.1 数据清洗概述 212
8.1.1 数据清洗原理 212
8.1.2 主要数据类型 212
8.1.3 常用工具 213
8.2 数据清洗方法 215
8.2.1 重复数据处理 215
8.2.2 缺失数据处理 218
8.2.3 异常数据处理 224
8.2.4 格式内容清洗 226
8.2.5 逻辑错误清洗 227
8.3 数据规整 228
8.3.1 字段拆分 228
8.3.2 数据分组 229
8.3.3 数据聚合 232
8.3.4 数据分割 236
8.3.5 数据合并 238
8.4 数据清洗实例 244
8.4.1 具体功能分析 244
8.4.2 具体代码实现 245
本章小结 247
习题 247
第9章 Matplotlib可视化 249
9.1 Matplotlib简介与安装 249
9.1.1 Matplotlib简介 249
9.1.2 Matplotlib安装 250
9.2 基础语法和常用设置 251
9.2.1 绘图流程 251
9.2.2 布局设置 252
9.2.3 画布创建 255
9.2.4 参数设置 256
9.3 基础图形绘制 258
9.3.1 折线图 258
9.3.2 直方图 259
9.3.3 饼状图 260
9.3.4 箱形图 262
9.3.5 散点图 264
9.3.6 三维图 266
本章小结 269
习题 270
第10章 Pyecharts可视化 271
10.1 Pyecharts简介与安装 271
10.1.1 Pyecharts简介 271
10.1.2 Pyecharts安装 272
10.2 公共属性设置 272
10.2.1 全局配置项 272
10.2.2 系列配置项 275
10.3 二维图形绘制 276
10.3.1 柱状图 276
10.3.2 折线图 281
10.3.3 面积图 284
10.3.4 涟漪散点图 285
10.3.5 饼状图 286
10.3.6 漏斗图 290
10.4 三维图形绘制 292
10.4.1 三维柱状图 292
10.4.2 三维散点图 294
10.4.3 三维地图 296
10.5 Pyecharts实例 296
10.5.1 具体功能分析 296
10.5.2 具体代码实现 297
本章小结 298
习题 299
参考文献 300
作者简介
贾宁,大连东软信息学院副教授,多年来一直从事大数据技术及应用、人工智能、深度学习/云计算等方面的科研和教学工作。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0