- ISBN:9787111674115
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:24cm
- 页数:11,458页
- 出版时间:2021-01-01
- 条形码:9787111674115 ; 978-7-111-67411-5
本书特色
作者多年从事网络爬虫领域的教学及研究工作,有着丰富的实践经验。 面向初学者全面介绍Python网络爬虫的实战宝典,涵盖网络爬虫的核心概念、算法和技术实现,内容系统,案例丰富。
内容简介
本书基于Python网络爬虫, 紧密结合演示应用案例, 系统性地介绍了几乎所有网络爬虫涉及的核心技术。全书分为基础理论、核心技术和综合实战三部分, 宏观覆盖了Python的环境搭建、Python基础语法、爬虫原理、爬虫常用库模块、正则表达式、验证码识别、抓包Fiddler工具、数据存储、Scrapy爬虫框架、多线性爬虫、动态网页爬虫和分布式爬虫等内容, 实战应用案例也均给出了典型算法及其完整源码。
目录
前言
第1章 Python环境搭建及基础学习
1.1 Python 3.6的安装与配置
1.1.1 Windows下的安装
1.1.2 Linux下的安装
1.1.3 macOS下的安装
1.2 IDE工具:PyCharm的安装
1.3 基础语法
1.3.1 **个Python程序
1.3.2 Python命名规范
1.3.3 行和缩进
1.3.4 注释和续行
1.3.5 Python输出
1.4 字符串
1.4.1 字符串运算符
1.4.2 字符串内置函数
1.5 数据结构
1.5.1 列表
1.5.2 元组
1.5.3 集合
1.5.4 字典
1.6 控制语句
1.6.1 条件表达式
1.6.2 选择结构
1.6.3 循环结构
1.7 函数、模块和包
1.7.1 函数
1.7.2 模块
1.7.3 包
1.8 文件的读写操作
1.8.1 文件读写步骤与打开模式
1.8.2 文件的基本操作
1.8.3 文件写入操作
1.9 面向对象
1.9.1 类和对象
1.9.2 封装性
1.9.3 继承性
1.9.4 多态性
1.10 本章小结
练习题
第2章 爬虫原理和网络基础
2.2 爬虫的意义
2.3 爬虫的原理
2.4 爬虫技术的类型
2.4.1 聚焦爬虫技术
2.4.2 通用爬虫技术
2.4.3 增量爬虫技术
2.4.4 深层网络爬虫技术
2.5 爬虫抓取策略
2.5.1 深度优先遍历策略
2.5.2 广度优先遍历策略
2.5.3 PartialPageRank策略
2.5.4 大站优先策略
2.5.5 反向链接数策略
2.5.6 0PIC策略
2.6 反爬虫和反反爬虫
2.6.1 反爬虫
2.6.2 反反爬虫
2.7 网络基础
2.7.1 网络体系结构
2.7.2 网络协议
2.7.3 Socket编程
2.8 本章小结
练习题
第3章 Python常用库
3.1 Python库的介绍
3.1.1 常用标准库
3.1.2 安装使用第三方库
3.2 urllib库
3.2.1 urlopen()函数用法
3.2.2 urlretrieve()函数用法
3.2.3 URL编码和URL解码
3.2.4 urlparse0和urlsplit()数用法
3.3 request库
3.3.1 request库的基本使用
3.3.2 request库的高级用法
3.4 lxml库
3.4.1 lxml库的安装和使用
3.4.2 XPath介绍
3.4.3 XPath语法
3.4.4 lxml和XPath的结合使用
3.5 BeautifuISoup库
3.5.1 Beautiful Soup库的安装和使用
3.5.2 提取数据
3.5.3 CSS选择器
3.6 实战案例
3.6.1 使用Beautiful Soup解析网页
3.6.2 微信公众号爬虫
3.6.3 爬取豆瓣读书TOP500
3.6.4 使用urllib库爬取百度贴吧
3.7 本章小结
练习题
……
第4章 正则表达式
第5章 验证码
第6章 抓包利器Fiddler
第7章 数据存储
第8章 Scrapy爬虫框架
第9章 多线程爬虫
第10章 动态网页爬虫
第11章 分布式爬虫
第12章 电商站商品信息爬虫项目
第13章 生活娱乐点评类信息爬虫项目
第14章 图片信息类爬虫项目
练习题答案
作者简介
赵国生,哈尔滨师范大学教授,工学博士,硕士生导师,黑龙江省网络安全技术领域特殊人才。主要从事可信网络、入侵容忍、认知计算、物联网安全等方向的教学与科研工作。担任中国计算机学会容错专委会委员、黑龙江省计算机学会网络专委会委员、中国青年博士论坛网络专委会委员、国家自然科学基金委项目评审专家、黑龙江省国资采购专家组成员、黑龙江省财政厅及黑龙江省高等法院信息化资讯专家、黑龙江省教育厅行业信息系统安全专题培训讲师、中国计算机学会高级会员、中国计算机学会YOCSEF哈尔滨副主席。荣获哈尔滨师范大学“先进工作者”“五四青年奖章”“宁齐堃”教学名师等荣誉。主持国家自然科学基金、黑龙江省自然科学基金、黑龙江省科技厅科技攻关等项目10项,发表SCI/EI检索论文50余篇,发明专利2项、实用新型专利6项,拥有软件著作权6项,获省/部级科技进步一等奖2项、三等奖1项,撰写《Linux操作系统原理与应用》《Matlab数学建模与仿真》《Matlab完全学习手册》《精通Labivew》等编著6部。目前担任《电子学报》《通信学报》《系统仿真学报》等期刊审稿专家。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0 -
PREMIERE PRO 2023全面精通:视频剪辑+颜色调整+转场特效+字幕制作+案例实战
¥69.3¥99.0