数据采集与处理

1星价 ¥35.4 (7.1折)

2星价￥35.4 定价￥49.8

作者：刘珍,章红燕

出版社：电子工业出版社

本类榜单：计算机/网络

分类：计算机/网络 > 计算机教材

暂无评论

图文详情

ISBN：9787121468841
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：16开
页数：252
出版时间：2024-01-01
条形码：9787121468841 ; 978-7-121-46884-1

本书特色

本书基于Python 3.10版本，以项目实战的方式系统地介绍了Python网络爬虫开发的相关知识，主要内容包括Python基础实战、网页数据采集实战、网页数据解析实战、并发技术实战、动态内容采集实战、爬虫数据存储实战、Scrapy爬虫框架实战等，通过多个实战任务的练习，让读者能大限度地掌握Python网络爬虫的核心技术。为了方便读者学习，本书附有配套源代码、教学PPT、题库、教学视频、教学设计等资源。本书可作为高等院校计算机相关专业程序设计课程教材，也可供从事计算机爬虫应用开发的相关人员使用。本书基于Python 3.10版本，以项目实战的方式系统地介绍了Python网络爬虫开发的相关知识，主要内容包括Python基础实战、网页数据采集实战、网页数据解析实战、并发技术实战、动态内容采集实战、爬虫数据存储实战、Scrapy爬虫框架实战等，通过多个实战任务的练习，让读者能大限度地掌握Python网络爬虫的核心技术。为了方便读者学习，本书附有配套源代码、教学PPT、题库、教学视频、教学设计等资源。本书可作为高等院校计算机相关专业程序设计课程教材，也可供从事计算机爬虫应用开发的相关人员使用。

内容简介

本书基于Python 3.10版本，以项目实战的方式系统地介绍了Python网络爬虫开发的相关知识，主要内容包括Python基础实战、网页数据采集实战、网页数据解析实战、并发技术实战、动态内容采集实战、爬虫数据存储实战、Scrapy爬虫框架实战等，通过多个实战任务的练习，让读者能*大限度地掌握Python网络爬虫的核心技术。为了方便读者学习，本书附有配套源代码、教学PPT、题库、教学视频、教学设计等资源。本书可作为高等院校计算机相关专业程序设计课程教材，也可供从事计算机爬虫应用开发的相关人员使用。

项目1 Python基础实战任务1.1 Python开发环境搭建1.1.1 在Windows系统中安装Python1.1.2 在Linux系统中安装Python1.1.3 安装PyCharm集成开发环境任务1.2 从HTML文档中提取特定字符串1.2.1 数值类型与变量1.2.2 字符串1.2.3 运算符1.2.4 流程控制任务1.3 用列表、字典等组织数据1.3.1 列表（list）1.3.2 元组（tuple）1.3.3 字典（dict）1.3.4 集合（set）1.3.5 函数任务1.4 基于正则表达式提取图片链接文本1.4.1 模块和包1.4.2 异常处理1.4.3 正则表达式任务1.5 从JSON文件中加载数据1.5.1 类与对象1.5.2 文件与目录操作1.5.3 JSON项目2 网页数据采集实战任务2.1 利用工具爬取一个电商网页2.1.1 爬虫的定义2.1.2 爬虫的类型2.1.3 与爬虫相关的网站文件2.1.4 反爬虫应对策略2.1.5 爬虫的合法性任务2.2 基于urllib库爬取一个电商网页任务2.3 urllib处理发送GET/POST请求任务2.4 请求头伪装与代理服务器应用2.4.1 请求头伪装2.4.2 代理服务器任务2.5 网络异常处理2.5.1 URLError2.5.2 HTTPError任务2.6 基于requests库爬取电商网页项目3 网页数据解析实战任务3.1 HTML基础3.1.1 HTML网页的结构3.1.2 Chrome浏览器的DevTools任务3.2 基于正则表达式的网页数据解析任务3.3 XPath应用3.3.1 XPath简介3.3.2 lxml简介任务3.4 Beautiful Soup解析数据任务3.5 JSON数据解析项目4 并发技术实战任务4.1 基于进程的并发爬虫4.1.1 并发原理4.1.2 进程（Process）4.1.3 Python的多进程并发编程任务4.2 基于queue模块的多线程爬虫4.2.1 线程（Thread）4.2.2 Python的多线程并发编程任务4.3 基于协程的并发爬虫任务4.4 历史天气并发爬取项目5 动态内容采集实战任务5.1 动态网页基础任务5.2 Selenium的安装配置任务5.3 基于Selenium的动态网页爬取任务5.4 基于Selenium的模拟登录任务5.5 验证码的识别处理5.5.1 验证码基础5.5.2 Pytesseract简介5.5.3 PIL简介任务5.6 基于Selenium的招聘职位获取项目6 爬虫数据存储实战任务6.1 MongoDB基础6.1.1 MongoDB的安装6.1.2 MongoDB的基本操作任务6.2 基于PyMongo的爬虫数据存储任务6.3 Redis数据库基础6.3.1 Redis的安装6.3.2 Redis的操作命令任务6.4 基于redis模块的爬虫数据存储项目7 Scrapy爬虫框架实战任务7.1 Scrapy爬虫框架基础7.1.1 Scrapy爬虫框架简介7.1.2 Scrapy项目创建7.1.3 Scrapy常用命令任务7.2 定义Spider爬取斗鱼直播平台数据7.2.1 Item类简介7.2.2 Spider类简介任务7.3 自定义爬虫中间件爬取众图网数据7.3.1 Scrapy的settings文件7.3.2 Downloader Middlewares任务7.4 CrawlSpider自动爬取数据7.4.1 CrawlSpider7.4.2 Rule7.4.3 LinkExtractor任务7.5 应用Item Pipeline进行后期数据处理任务7.6 综合实训——百度科学百科数据爬取

展开全部

作者简介

刘珍，湖南大学全日制硕士研究生，计算机科学与技术讲师，福田区技术能手，计算机网络管理技师、电子商务技师，至今从事教育工作14余年，累计获得各项教研成果奖项30余项，主持教科研项目3项，参与教科研项目6项，累计发表科研论文10余篇，获得计算机软件开发专利著作权5项，主编《微信小程序开发》教材，主讲广东省级精品课程《小程序开发》。

本类五星书

更多>>

浏览历史

数据采集与处理

刘珍,章红燕

¥35.4¥49.8

本类畅销

×

数据采集与处理

本书特色

内容简介

目录

作者简介

预估到手价 ×