暂无评论
图文详情
- ISBN:9787115589903
- 装帧:平装
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:180
- 出版时间:2024-05-01
- 条形码:9787115589903 ; 978-7-115-58990-3
本书特色
【内容特点】
(1)全面讲解大数据采集与预处理的相关理论和实操
(2)注重实战,案例丰富,代码注释详尽,微课视频。
(3)精选3个行业案例精细讲解。
【资源特点】配套PPT、教案、教学大纲、习题答案。
【服务特点】作者提供QQ服务群等支持。
内容简介
本书详细阐述了大数据领域数据采集与预处理的相关理论和技术,全面讲解了数据采集与预处理的全流程及在多领域的应用案例。本书共8章,包括数据采集与预处理概述、数据采集与存储、数据采集进阶、数据清洗、数据规整与分组聚合、豆瓣电影排行榜数据采集与预处理、使用Scrapy框架与Selenium采集股市每日点评数据并可视化、房产数据预处理。 本书可作为高等院校大数据、人工智能、计算机等专业的教材使用,也可供相关科技人员参考。
目录
第 1章 数据采集与预处理概述
1.1 数据采集简介
1.1.1 数据采集的工具
1.1.2 爬虫的原理与分类
1.1.3 网络爬虫核心流程
1.1.4 爬虫的应用场景
1.2 数据预处理简介
1.2.1 数据预处理的目的与意义
1.2.2 数据预处理的流程
1.2.3 数据预处理的工具介绍
1.3 Python数据采集与预处理常用库
1.3.1 请求库
1.3.2 解析库
1.3.3 数据存储库
1.3.4 处理库
1.4 习题
第 2章 数据采集与存储
2.1 数据类型与操纵
2.1.1 数据类型介绍
2.1.2 JSON格式数据
2.1.3 CSV格式数据
2.2 网页抓取:爬虫基础
2.2.1 爬虫基本流程介绍
2.2.2 HTTP基本原理
2.2.3 网页基础
2.2.4使用urllib库
2.2.5使用requests库请求网站
2.2.6正则表达式提取数据
2.2.7代理的使用
2.2.8使用Cookie登录
2.3解析库的使用
2.3.1使用Beautiful Soup解析网页
2.3.2使用XPath来处理HTML
2.4数据存储
2.4.1存储为JSON格式
2.4.2存储为CSV格式
2.4.3存储到MySQL数据库中
2.5 习题
第3章 数据采集进阶
3.1 Ajax数据爬取
3.1.1 什么是Ajax
3.1.2 为什么要学习Ajax爬取
3.1.3 怎样进行Ajax数据的爬取
3.2 使用Selenium抓取动态渲染页面
3.2.1 Selenium的基本介绍与安装方法
3.2.2 Selenium的简单使用
3.2.3 Selenium的应用实例
3.2.4 Selenium的高级操作
3.3 爬虫框架介绍
3.3.1 爬虫框架介绍
3.3.2 爬虫框架机制
3.4 Scrapy爬虫框架
3.4.1 Scrapy的简介与安装
3.4.2 Scrapy的基本使用
3.4.3 创建Scrapy项目
3.4.4 编写Spider
3.4.5 编写Item Pipeline
3.4.6 设置Settings模块
3.5 习题
第4章 数据清洗
4.1 数据清洗概述
4.2 缺失数据处理
4.2.1 数据缺失的原因
4.2.2 缺失值的主要处理方法
4.3 异常值和重复值处理
4.3.1 删除重复值
4.3.2 检测异常值
4.3.3 过滤异常值
4.4 数据转换
4.4.1 数据类型转换
4.4.2 用函数或映射进行数据转换
4.4.3 重命名轴索引
4.4.4 连续数据离散化
4.4.5 哑变量处理类别型数据
4.4.6 数据标准化
4.5 习题
第5章 数据规整与分组聚合
5.1 数据规整
5.1.1 数据联合与合并
5.1.2 分层索引
5.1.3 数据重塑
5.2 数据分组
5.2.1 创建分组数据
5.2.2 运用GroupBy机制分组
5.3 数据聚合
5.3.1 groupby中预置的聚合方法
5.3.2 aggregate()函数与transform()函数
5.3.3 使用apply()函数
5.4 习题
第6章 豆瓣电影排行榜数据采集与预处理
6.1 豆瓣电影榜数据采集目标
6.2 豆瓣网页结构分析
6.2.1 宏观整体页面分析
6.2.2 微观具体信息爬取
6.3 创建爬虫
6.3.1 准备URL
6.3.2 请求及响应
6.3.3 提取数据
6.3.4 保存数据
6.4 数据预处理
6.5 数据可视化
6.6 习题
第7章 使用Scrapy框架与Selenium数据采集与可视化
7.1 采集目标和准备工作
7.2 大数据网页结构分析
7.3 使用Scrapy与Selenium爬取信息
7.3.1 编写item.py与spider.py
7.3.2 编写middlewares.py
7.3.3 编写pipelines.py
7.3.4 设置settings.py
7.3.5 运行结果
7.4 某电商数据预处理与可视化
7.4.1 数据预处理
7.4.2 数据可视化
7.5 习题
第8章 房产数据预处理
8.1 研究背景和目标分析
8.2 数据描述与探索
8.3 数据预处理
8.3.1 属性规约
8.3.2 数据缺失值处理
8.3.3 数据异常值处理
8.3.4 数据转换
8.3.5 保存数据
8.4 习题
1.1 数据采集简介
1.1.1 数据采集的工具
1.1.2 爬虫的原理与分类
1.1.3 网络爬虫核心流程
1.1.4 爬虫的应用场景
1.2 数据预处理简介
1.2.1 数据预处理的目的与意义
1.2.2 数据预处理的流程
1.2.3 数据预处理的工具介绍
1.3 Python数据采集与预处理常用库
1.3.1 请求库
1.3.2 解析库
1.3.3 数据存储库
1.3.4 处理库
1.4 习题
第 2章 数据采集与存储
2.1 数据类型与操纵
2.1.1 数据类型介绍
2.1.2 JSON格式数据
2.1.3 CSV格式数据
2.2 网页抓取:爬虫基础
2.2.1 爬虫基本流程介绍
2.2.2 HTTP基本原理
2.2.3 网页基础
2.2.4使用urllib库
2.2.5使用requests库请求网站
2.2.6正则表达式提取数据
2.2.7代理的使用
2.2.8使用Cookie登录
2.3解析库的使用
2.3.1使用Beautiful Soup解析网页
2.3.2使用XPath来处理HTML
2.4数据存储
2.4.1存储为JSON格式
2.4.2存储为CSV格式
2.4.3存储到MySQL数据库中
2.5 习题
第3章 数据采集进阶
3.1 Ajax数据爬取
3.1.1 什么是Ajax
3.1.2 为什么要学习Ajax爬取
3.1.3 怎样进行Ajax数据的爬取
3.2 使用Selenium抓取动态渲染页面
3.2.1 Selenium的基本介绍与安装方法
3.2.2 Selenium的简单使用
3.2.3 Selenium的应用实例
3.2.4 Selenium的高级操作
3.3 爬虫框架介绍
3.3.1 爬虫框架介绍
3.3.2 爬虫框架机制
3.4 Scrapy爬虫框架
3.4.1 Scrapy的简介与安装
3.4.2 Scrapy的基本使用
3.4.3 创建Scrapy项目
3.4.4 编写Spider
3.4.5 编写Item Pipeline
3.4.6 设置Settings模块
3.5 习题
第4章 数据清洗
4.1 数据清洗概述
4.2 缺失数据处理
4.2.1 数据缺失的原因
4.2.2 缺失值的主要处理方法
4.3 异常值和重复值处理
4.3.1 删除重复值
4.3.2 检测异常值
4.3.3 过滤异常值
4.4 数据转换
4.4.1 数据类型转换
4.4.2 用函数或映射进行数据转换
4.4.3 重命名轴索引
4.4.4 连续数据离散化
4.4.5 哑变量处理类别型数据
4.4.6 数据标准化
4.5 习题
第5章 数据规整与分组聚合
5.1 数据规整
5.1.1 数据联合与合并
5.1.2 分层索引
5.1.3 数据重塑
5.2 数据分组
5.2.1 创建分组数据
5.2.2 运用GroupBy机制分组
5.3 数据聚合
5.3.1 groupby中预置的聚合方法
5.3.2 aggregate()函数与transform()函数
5.3.3 使用apply()函数
5.4 习题
第6章 豆瓣电影排行榜数据采集与预处理
6.1 豆瓣电影榜数据采集目标
6.2 豆瓣网页结构分析
6.2.1 宏观整体页面分析
6.2.2 微观具体信息爬取
6.3 创建爬虫
6.3.1 准备URL
6.3.2 请求及响应
6.3.3 提取数据
6.3.4 保存数据
6.4 数据预处理
6.5 数据可视化
6.6 习题
第7章 使用Scrapy框架与Selenium数据采集与可视化
7.1 采集目标和准备工作
7.2 大数据网页结构分析
7.3 使用Scrapy与Selenium爬取信息
7.3.1 编写item.py与spider.py
7.3.2 编写middlewares.py
7.3.3 编写pipelines.py
7.3.4 设置settings.py
7.3.5 运行结果
7.4 某电商数据预处理与可视化
7.4.1 数据预处理
7.4.2 数据可视化
7.5 习题
第8章 房产数据预处理
8.1 研究背景和目标分析
8.2 数据描述与探索
8.3 数据预处理
8.3.1 属性规约
8.3.2 数据缺失值处理
8.3.3 数据异常值处理
8.3.4 数据转换
8.3.5 保存数据
8.4 习题
展开全部
作者简介
安俊秀,成都信息工程大学软件工程学院教授,主要研究领域为云计算与大数据技术、大数据分析与服务、云计算技术及应用。
本类五星书
本类畅销
-
落洼物语
¥8.9¥28.0 -
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
中国当代文学名篇选读
¥17.0¥53.0 -
中医基础理论
¥50.7¥59.0 -
长征记忆(八品)
¥9.5¥45.0 -
北大人文课(平装)
¥12.2¥45.0 -
世界现代设计史-[第二版]
¥63.6¥120.0 -
断代(八品)
¥13.4¥42.0 -
宪法-第二版
¥20.3¥29.0 -
先进防伪技术
¥81.3¥98.0 -
当代中国政府与政治 第二版
¥57.8¥68.0 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
毛泽东思想和中国特色社会主义理论体系概论(2021年版)
¥8.5¥25.0 -
新闻学概论(第七版)(新闻与传播学系列教材(新世纪版))
¥30.0¥50.0 -
办公室工作实务(第4版)/黄海
¥27.8¥48.0 -
全国压力管道设计和审批人员培训教材(第四版)
¥160.4¥198.0 -
习近平总书记教育重要论述讲义
¥13.3¥35.0 -
无人机概论
¥37.2¥59.0 -
(平装)北大必修课:北大口才课
¥18.2¥45.0