- ISBN:9787111728467
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:266
- 出版时间:2023-06-01
- 条形码:9787111728467 ; 978-7-111-72846-7
本书特色
配套资源:电子课件、习题答案、教学大纲、程序代码、模拟试卷、60分钟教学视频 本书特色: 详细介绍了网络爬虫技术的方方面面,讨论了数据抓取、数据处理和数据分析的整个流程。 从*简单的Python程序示例开始,在网络爬虫的核心主题之下一步步深入,兼顾内容的广度与深度。 提供丰富的代码来作为读者的参考,同时对必要的术语和代码进行解释。 书中程序代码均采用Python 3版本,并使用了目前主流的各种Python框架和库来编写,注重内容的时效性。
内容简介
本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。
目录
基 础 篇
第1章 Python基础及网络爬虫1
1.1 了解Python语言1
1.1.1 Python是什么2
1.1.2 Python的应用现状2
1.2 配置安装Python开发环境3
1.2.1 在Windows上安装3
1.2.2 在Ubuntu和MacOS上安装4
1.2.3 IDE的使用:以PyCharm为例5
1.2.4 Jupyter Notebook简介9
1.3 Python基本语法介绍11
1.3.1 HelloWorld与数据类型11
1.3.2 逻辑语句17
1.3.3 Python中的函数与类20
1.3.4 更深入了解Python22
1.4 互联网、HTTP与HTML22
1.4.1 互联网与HTTP22
1.4.2 HTML23
1.5 Hello, Spider!25
1.5.1 编写**个爬虫程序25
1.5.2 对爬虫的思考27
1.6 分析网站28
1.6.1 robots.txt与Sitemap简介28
1.6.2 网站技术分析31
1.6.3 网站所有者信息分析33
1.6.4 使用开发者工具检查网页34
1.7 本章小结37
1.8 实践:Python环境的配置与
爬虫的运行37
1.8.1 需求说明37
1.8.2 实现思路及步骤37
1.9 习题37
第2章 数据采集与预处理39
2.1 数据39
2.1.1 数据的概念39
2.1.2 数据类型40
2.1.3 数据的存储形式42
2.1.4 数据的价值42
2.1.5 大数据时代43
2.2 数据分析过程43
2.3 数据采集44
2.3.1 数据采集的概念44
2.3.2 数据采集的数据源44
2.3.3 数据采集方法45
2.4 数据清洗45
2.4.1 数据清洗概述45
2.4.2 数据清洗的内容46
2.4.3 数据清洗的基本流程46
2.4.4 数据清洗的评价标准47
2.5 数据集成47
2.6 数据转换48
2.6.1 数据转换概念与策略48
2.6.2 平滑处理48
2.6.3 标准化处理50
2.7 数据脱敏50
2.7.1 数据脱敏的原则50
2.7.2 数据脱敏的方法51
2.8 本章小结51
2.9 实践:使用Python尝试数据的
清洗51
2.9.1 需求说明51
2.9.2 实现思路及步骤51
2.10 习题51
第3章 静态网页采集53
3.1 从采集开始53
3.2 正则表达式54
3.2.1 什么是正则表达式54
3.2.2 正则表达式的简单使用56
3.3 BeautifulSoup爬虫58
3.3.1 安装BeautifulSoup58
3.3.2 BeautifulSoup的基本用法61
3.4 XPath与lxml64
3.4.1 XPath64
3.4.2 lxml与XPath的使用65
3.5 遍历页面67
3.5.1 抓取下一个页面67
3.5.2 完成爬虫68
3.6 使用API70
3.6.1 API简介70
3.6.2 API使用示例72
3.7 本章小结75
3.8 实践:哔哩哔哩直播间信息
爬取练习75
3.8.1 需求说明75
3.8.2 实现思路及步骤75
3.9 习题76
第4章 数据存储77
4.1 Python中的文件77
4.1.1 Python的文件读写77
4.1.2 对象序列化79
4.2 Python中的字符串80
4.3 Python中的图片81
4.3.1 PIL与Pillow模块81
4.3.2 Python与OpenCV简介83
4.4 CSV84
4.4.1 CSV简介84
4.4.2 CSV的读写84
4.5 数据库的使用86
4.5.1 MySQL的使用86
4.5.2 SQLite3的使用88
4.5.3 SQLAlchemy的使用89
4.5.4 Redis的使用91
4.5.5 MongoDB的使用91
4.6 其他类型的文档92
4.7 本章小结97
4.8 实践:使用Python 3读写SQLite
数据库97
4.8.1 需求说明97
4.8.2 实现思路及步骤97
4.9 习题97
进 阶 篇
第5章 JavaScript与动态内容99
5.1 JavaScript与AJAX技术100
5.1.1 JavaScript语言100
5.1.2 AJAX103
5.2 抓取AJAX数据104
5.2.1 分析数据104
5.2.2 数据提取108
5.3 抓取动态内容113
5.3.1 动态渲染页面113
5.3.2 使用Selenium114
5.3.3 PyV8与Splash120
5.4 本章小结123
5.5 实践:爬取机械工业出版社新书
上架信息123
5.5.1 需求说明123
5.5.2 实现思路及步骤124
5.6 习题124
第6章 模拟登录与验证码125
6.1 表单125
6.1.1 表单与POST125
6.1.2 POST发送表单数据127
6.2 Cookie130
6.2.1 Cookie简介130
6.2.2 在Python中Cookie的使用131
6.3 模拟登录网站133
6.3.1 分析网站133
6.3.2 Cookie方法的模拟登录134
6.4 验证码137
6.4.1 图片验证码137
6.4.2 滑动验证139
6.5 本章小结142
6.6 实践:通过Selenium模拟登录Gitee并保存Cookie143
6.6.1 需求说明143
6.6.2 实现思路及步骤143
6.7 习题143
第7章 爬虫数据的分析与处理144
7.1 Python与文本分析144
7.1.1 文本分析简介144
7.1.2 jieba与SnowNLP145
7.1.3 NLTK148
7.1.4 文本分类与聚类151
7.2 数据处理与科学计算153
7.2.1 从MATLAB到Python153
7.2.2 NumPy154
7.2.3 Pandas158
7.2.4 Matplotlib163
7.2.5 SciPy与SymPy167
7.3 本章小结167
7.4 实践:中国每年大学招生人数
变化的可视化167
7.4.1 需求说明167
7.4.2 实现思路及步骤167
7.5 习题167
提 高 篇
第8章 爬虫的灵活性和多样性169
8.1 爬虫的灵活性——以微信数据
抓取为例169
8.1.1 用Selenium抓取Web微信信息169
8.1.2 基于Python的微信API工具173
8.2 爬虫的多样性176
8.2.1 在BeautifulSoup和XPath之外176
8.2.2 在线爬虫应用平台179
8.2.3 使用urllib180
8.3 爬虫的部署和管理188
8.3.1 使用服务器部署爬虫188
8.3.2 本地爬虫的编写
-
深度学习的数学
¥43.5¥69.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥31.9¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥22.1¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥83.3¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0 -
贝叶斯推理与机器学习
¥139.3¥199.0