×
AI编程班:PyhonChatGPT网络爬虫从入门到精通

包邮AI编程班:PyhonChatGPT网络爬虫从入门到精通

1星价 ¥54.4 (6.1折)
2星价¥54.4 定价¥89.0
暂无评论
图文详情
  • ISBN:9787576333602
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:272
  • 出版时间:2024-02-01
  • 条形码:9787576333602 ; 978-7-5763-3360-2

本书特色

让零基础小白掌握Python爬虫技术 用ChatGPT自动生成爬虫代码 掌握AI工具在编程中的应用,革新编程方式,改变编程思维

内容简介

全书共11章,以下是各章的主要内容:
第1章:主要讲解Python编程环境的搭建方法及Python语言的基础语法知识等内容。
第2章:主要讲解AI工具的基本使用方法,以及如何在爬虫编程中利用AI工具解决技术难题和提高开发效率。
第3章:主要讲解如何对网页进行初步分析,包括查看网页源代码、剖析网页的结构、判断网页的类型等,为获取网页源代码并提取数据奠定基础。
第4、5章:分别讲解静态网页和动态网页的爬取,主要内容包括如何使用Requests模块和Selenium模块获取网页源代码,如何使用正则表达式和BeautifulSoup模块从网页源代码中提取所需数据。
第6章:主要讲解如何使用pandas等模块对获取的数据进行清洗、处理和分析,以提高数据的质量,并从数据中提取有价值的信息。
第7章:进一步探索Python网络爬虫的进阶技术,例如,用pandas模块爬取网页表格数据、用数据接口爬取数据、开发带图形用户界面的爬虫程序等。全书共11章,以下是各章的主要内容: 第1章:主要讲解Python编程环境的搭建方法及Python语言的基础语法知识等内容。 第2章:主要讲解AI工具的基本使用方法,以及如何在爬虫编程中利用AI工具解决技术难题和提高开发效率。 第3章:主要讲解如何对网页进行初步分析,包括查看网页源代码、剖析网页的结构、判断网页的类型等,为获取网页源代码并提取数据奠定基础。 第4、5章:分别讲解静态网页和动态网页的爬取,主要内容包括如何使用Requests模块和Selenium模块获取网页源代码,如何使用正则表达式和BeautifulSoup模块从网页源代码中提取所需数据。 第6章:主要讲解如何使用pandas等模块对获取的数据进行清洗、处理和分析,以提高数据的质量,并从数据中提取有价值的信息。 第7章:进一步探索Python网络爬虫的进阶技术,例如,用pandas模块爬取网页表格数据、用数据接口爬取数据、开发带图形用户界面的爬虫程序等。 第8~11章:通过一系列实际应用场景来实践并强化之前所学的知识。这些场景涵盖了财经、社交媒体、电商等多个领域的数据爬取,以及媒体文件的下载。读者将深入体会如何灵活运用爬虫技术解决实际问题,在遇到困难时如何借助AI工具“见招拆招”,从而踏上编程能力的持续自我提升之路。

目录

第1章 Python入门 1.1 安装Python编程环境 1.2 管理第三方模块 1.3 在代码中导入模块 1.4 测试Python编程环境 1.5 变量的命名和赋值 1.6 Python的基本数据类型:数字、字符串 1.7 Python的基本数据类型:列表、字典 1.8 Python的运算符 1.9 Python的控制语句:if语句 1.10 Python的控制语句:for语句 1.11 Python的控制语句:while语句 1.12 Python的控制语句:try/except语句 1.13 Python控制语句的嵌套 1.14 Python的自定义函数 第2章 AI辅助编程基础 2.1 初识AI工具 2.2 与AI工具对话的基本操作 2.3 设计提示词的原则和技巧 2.4 利用AI工具解读和修改代码 2.5 利用AI工具分析报错信息 2.6 利用AI工具阅读技术文档 第3章 网页的初步分析 3.1 查看网页源代码:右键快捷菜单 3.2 查看网页源代码:开发者工具 3.3 认识常见的HTML标签 3.4 剖析网页的结构 3.5 判断网页的类型 第4章 静态网页的爬取 4.1 用Requests模块获取静态网页的源代码 4.2 正则表达式的基础知识 4.3 分析网页源代码并编写正则表达式 4.4 用正则表达式从网页源代码中提取数据 4.5 CSS选择器的基础知识 4.6 分析网页源代码并编写CSS选择器 4.7 用BeautifulSoup模块从网页源代码中提取数据 4.8 用Requests模块下载文件 4.9 静态网页爬取实战1:单页爬取 4.10 静态网页爬取实战2:多页爬取 第5章 动态网页的爬取 5.1 搭建Selenium模块的运行环境 5.2 用Selenium模块获取网页源代码 5.3 操控浏览器:用XPath定位网页元素 5.4 操控浏览器:用CSS选择器定位网页元素 5.5 操控浏览器:自动向下滚动页面 5.6 操控浏览器:自动下载文件 5.7 操控浏览器:切换标签页 5.8 操控浏览器:切换至标签中的子网页 5.9 操控浏览器:启用无界面模式 5.10 用Requests模块获取动态加载的数据 5.11 使用Cookie模拟登录 5.12 动态网页爬取实战1:单页爬取 5.13 动态网页爬取实战2:多页爬取 第6章 爬虫数据的处理和分析 6.1 pandas模块的基本数据结构:Series 6.2 pandas模块的基本数据结构:DataFrame 6.3 用pandas模块读写数据文件 6.4 DataFrame的常用操作:选取数据 6.5 DataFrame的常用操作:数据的运算、排序和筛选 6.6 爬虫数据清洗:处理缺失值和重复值 6.7 爬虫数据清洗:删除无用的字符 6.8 爬虫数据清洗:转换数据类型 6.9 爬虫数据清洗:补全数据 6.10 爬虫数据分析与可视化 第7章 Python爬虫技术进阶 7.1 用pandas模块爬取网页表格数据 7.2 用数据接口爬取数据 7.3 开发带图形用户界面的爬虫程序 7.4 爬虫程序的打包 7.5 爬虫提速:优化Selenium模块的等待方式 第8章 综合实战:财经数据爬取 8.1 爬取证券日报网的财经新闻 8.2 爬取搜狐的财经要闻 8.3 爬取东方财富网的财务报表 8.4 爬取新浪财经的上市公司盈利能力数据 8.5 批量下载上海证券交易所的问询函 8.6 批量下载东方财富网的研报 第9章 综合实战:社交媒体数据爬取 9.1 爬取百度热搜榜 9.2 爬取新浪微博热搜榜 9.3 爬取好看视频的数据 第10章 综合实战:电商数据爬取 10.1 爬取当当网的图书畅销榜数据 10.2 爬取京东的商品评价 第11章 综合实战:媒体文件下载 11.1 批量下载图片 11.2 批量下载视频
展开全部

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航