×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
数据采集技术:Python网络爬虫项目化教程(第2版)

数据采集技术:Python网络爬虫项目化教程(第2版)

1星价 ¥31.0 (7.2折)
2星价¥31.0 定价¥43.0
暂无评论
图文详情
  • ISBN:9787040596908
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:219
  • 出版时间:2023-04-01
  • 条形码:9787040596908 ; 978-7-04-059690-8

内容简介

本书为高等职业教育计算机类课程新形态一体化教材,同时是Python大数据技术系列教材中的一本。本书面向实践系统地介绍了Python网络爬虫技数据采集技术。本书采用项目式编排,主要分成5个项目。项目1以学生信息管理系统为依托,讲解Python的Web访问技术,它是网络爬虫的程序基础。项目2以爬取城市天气预报任务为依托,讲解网页数据的爬取方法,其中重点讲解了BeautifulSoup的数据分析与提取方法。项目3以爬取旅游网站的任务为依托,讲解爬取多个网页数据的方法,重点讲解了网页的深度优先与广度优先顺序爬取路径的构造方法与多线程分布式网页爬取技术。项目4以爬取网站的图书信息任务为依托,讲解目前功能强大的分布式爬取框架Scrapy的程序设计技术。项目5以爬取商品网站的数据项目为依托,讲解Selenium动态网页数据的爬取技术。每个项目都遵循由浅入深的学习规律,理论与实践相结合,提高学生的实践能力。 本书配套微课、授课用PPT、源代码、案例素材、习题等资源。与本书配套的数字课程在“智慧职教”平台(www.icve.com.cn)上线,读者可以登录平台进行在线开放课程的学习,授课教师可以调用本课程构建符合自身教学特色的SPOC课程,详见“智慧职教”服务指南。读者可登录网站进行资源的学习及获取,也可发邮件至编辑邮箱1548103297@qq.com 获取相关资源。 本书可以作为高等职业院校大数据技术、软件技术等专业相关课程的教材,还可以作为大数据技术领域从业人员的自学参考书。

目录

项目1 爬取学生信息 1.1 爬虫程序开发环境 1.1.1 爬虫程序简介 1.1.2 搭建Python开发环境 1.2 FlaskWeb网站 1.2.1 Flask简介 1.2.2 调用Urllib库访问Web网站 1.3 使用GET方法访问网站 1.3.1 客户端使用GET方法发送数据 1.3.2 服务器获取GET方法发送的数据 1.4 使用POST方法向网站发送数据 1.4.1 客户端使用POST方法发送数据 1.4.2 服务器获取POST方法的数据 1.4.3 GET与POST方法的混合使用 1.5 搭建图书网站 1.5.1 准备网站素材 1.5.2 创建网页模板 1.5.3 创建网站服务器程序 1.5.4 运行网站服务器程序 1.6 正则表达式与查找匹配字符串 1.6.1 正则表达式 1.6.2 查找匹配字符串 1.7 实践项目——爬取学生信息 1.7.1 项目简介 1.7.2 服务器程序 1.7.3 客户端程序 练习一 项目2 爬取天气预报数据 2.1 HTML文档结构与文档树 2.1.1 HTML文档结构 2.1.2 HTML文档树 2.2 BeautifuISoup装载HTML文档 2.2.1 BeautifuISoup的安装 2.2.2 BeautifuISoup装载HTML文档 2.3 查找文档元素 2.3.1 查找HTML元素 2.3.2 获取HTML元素属性值 2.3.3 获取元素包含的文本值 2.3.4 高级查找 2.4 遍历文档元素 2.4.1 获取元素节点的父节点元素 2.4.2 获取元素节点的所有子节点元素 2.4.3 获取元素节点的所有子孙节点元素 2.4.4 获取元素节点的兄弟节点 2.5 使用CSS语法查找元素 2.5.1 使用CSS语法 2.5.2 属性的语法规则 2.5.3 使用soup.select()查找子孙节点 2.5.4 使用soup.select()查找直接子节点 2.5.5 使用soup.select()查找兄弟节点 2.6 爬取图书网站数据 2.6.1 分析网站结构 2.6.2 获取图书数据 2.6.3 编写爬虫程序 2.7 实践项目——爬取天气预报数据 2.7.1 项目简介 2.7.2 HTML代码分析 2.7.3 爬取天气预报数据 2.7.4 爬取与存储天气预报数据 练习二 项目3 爬取旅游网站数据 3.1 网站树的爬取路径 3.1.1 Web服务器网站 3.1.2 使用递归程序爬取数据 3.1.3 使用深度优先策略爬取数据 3.1.4 广度优先策略爬取数据 3.2 网站图的爬取路径 3.2.1 复杂的Web网站 3.2.2 改进客户端深度优先策略程序 3.2.3 改进客户端广度优先策略程序 3.3 Python实现多线程 3.3.1 Python的前后台线程 3.3.2 线程的等待 3.3.3 多线程与资源 3.4 爬取网站复杂数据 3.4.1 Web服务器网站 3.4.2 爬取网站的复杂数据 3.4.3 爬取程序的改进 3.5 爬取网站的图像文件 3.5.1 项目简介 3.5.2 单线程爬取图像的程序 3.5.3 多线程爬取图像的程序 3.6 爬取图书网站数据 3.6.1 分析网站结构 3.6.2 换页递归爬取 3.6.3 图书数据存储 3.6.4 编写爬虫程序 3.6.5 执行爬虫程序 3.7 实践项目——爬取旅游网站数据 3.7.1 实践项目简介 3.7.2 网站网页分析 3.7.3 网站数据爬取 3.7.4 网站网页翻页 3.7.5 网站数据存储 3.7.6 编写爬虫程序 3.7.7 执行爬虫程序 练习三 …… 项目4 爬取航空网站数据 项目5 爬取商城网站数据 结语 参考文献
展开全部

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航