
包邮Python应用实战:爬虫、文本分析与可视化

- ISBN:9787121380136
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:26cm
- 页数:167页
- 出版时间:2020-03-01
- 条形码:9787121380136 ; 978-7-121-38013-6
本书特色
欢迎来到Python的世界。本书介绍了Python的语法、数据结构等基础知识,以及经典的Python爬虫、网页文本分析及可视化。在本书中,读者不仅可以与Python“结识”,还会遇到新“朋友”———浏览器的开发者工具,通过它来了解HTML编写网页的语言,并进行结构化的网页分析和所需数据的提取。拿来主义特别适合来类比Python语言中的库,Python将与re、requests、lxml等经典的库组合在一起,自动抓取网页数据的爬虫。Pandas这个工具会对抓取的数据进行文本分析,并实现将枯燥的数据进行漂亮的可视化呈现。千里之行,始于足下,欢迎进入本书的奇妙之旅。
内容简介
本书介绍了Python的语法、数据结构等基础知识, 以及经典的Python爬虫、网页文本分析及可视化。在本书中, 读者不仅可以与Python“结识”, 还会遇到新“朋友” —— 浏览器的开发者工具, 通过它来了解HTML编写网页的语言, 并进行结构化的网页分析和所需数据的提取。
目录
第1章 初识Python 1
1.1 使用IDLE 1
1.2 从字符串着手 4
1.3 复杂数据的福音——列表 7
1.3.1 创建列表 7
1.3.2 列表的操作 7
1.4 处理数据——条件判断 9
1.5 处理数据——循环 11
1.6 处理数据进阶——嵌套语句 12
1.7 函数 14
1.8 拿来就用——模块 16
1.9 文件 17
1.10 处理异常 18
第2章 网页 20
2.1 工具准备 20
2.2 从URL开始 21
2.2.1 简单获取URL 22
2.2.2 链接与URL 24
2.3 编写网页的语言——HTML 25
2.3.1 创建自己的**个网页 26
2.3.2 标签——创建网页的方块 27
2.3.3 标签属性 30
2.4 CSS与class 31
2.5 JavaScript和id 33
2.6 网页分析工具 36
2.6.1 谷歌开发者工具 36
2.6.2 查看网页结构 38
2.6.3 定位指定的元素 39
2.6.4 筛选不同的资源 41
2.7 网页的快递——HTTP 44
2.7.1 HTTP请求 45
2.7.2 HTTP响应 46
2.7.3 HTTP的应用——Cookie和Session 47
2.7.4 实战——HTTP的交互过程 49
2.8 以URL结束 52
2.9 本章总结 55
第3章 数据抓取 56
3.1 工具准备 56
3.2 Xpath和lxml.html 58
3.2.1 网页分析利器——lxml 58
3.2.2 XPath 59
3.2.3 XPath使用实例 60
3.2.4 XPath演示 61
3.3 关于robots.txt 62
3.4 小试牛刀 64
3.4.1 过程分析 64
3.4.2 动手敲代码 67
3.4.3 小结 68
3.4.4 扩展 68
3.5 获取电影数据(上) 69
3.5.1 过程分析 70
3.5.2 动手敲代码 73
3.5.3 小结 74
3.6 获取电影数据(下) 75
3.6.1 过程分析 76
3.6.2 动手敲代码 76
3.6.3 考虑加强代码的健壮性 78
3.6.4 小结 80
3.7 另类的网页抓取 80
3.7.1 过程分析 81
3.7.2 动手敲代码 84
3.7.3 小结 85
3.8 爬虫与网络机器人 85
3.9 本章总结 86
第4章 文本处理 87
4.1 正则表达式 87
4.1.1 怎样进行匹配 87
4.1.2 常用的元字符 88
4.2 更强的文本工具——Python的 re库 89
4.2.1 匹配对象怎么用 91
4.2.2 使用regex来搜索 91
4.2.3 使用regex来替换 93
4.2.4 更方便查找 95
4.2.5 re库中的控制标志 95
4.2.6 replace()和re.sub() 98
4.2.7 实现更高级的strip()方法 99
4.2.8 新的拆分方法re.split() 100
4.2.9 怎样提取中文 101
4.3 电影数据的处理 102
4.3.1 提取之前的观察 104
4.3.2 需要获取哪些数据 104
4.3.3 多样化的方法 111
4.3.4 格式化的数据 112
4.4 本章总结 115
第5章 数据分析 116
5.1 工具准备 116
5.1.1 配置Jupyter Notebook 116
5.1.2 数据生成帮手——Numpy 116
5.1.3 Pandas中的数据结构 118
5.2 像一维数组的Series 118
5.2.1 获取Series信息 120
5.2.2 Series进行数学运算 123
5.2.3 对Series进行一些操作 124
5.2.4 方法串联 128
5.2.5 操作Series中的字符串数据 129
5.2.6 小结一下Series 130
5.3 DataFrame 131
5.3.1 创建DataFrame 132
5.3.2 对齐 133
5.3.3 了解DataFrame 134
5.3.4 常用DataFrame操作 137
5.3.5 数据的导入与导出 141
5.4 简单数据分析 145
5.4.1 电影评分分布 145
5.4.2 电影产量趋势 146
5.4.3 评论人数*多的电影 147
5.4.4 发行电影*多的国家 148
5.5 看得见的数据 153
5.5.1 线图 153
5.5.2 柱状图 155
5.5.3 饼图 157
作者简介
张丽,女,电子科技大学大数据研究中心教师,主要从事数据分析、Python语言的应用以及项目开发等相关课程的教学和科研。
-
【精装绘本】兔宝的世界绘本:兔宝的音乐会
¥12.5¥36.0 -
超实用英语语法思维导图
¥21.3¥59.8 -
团购:丹尼斯和爸爸、爷爷(共6册)+晚安绘本(共4册)
¥100.1¥111.2 -
我的汉语练习册-上册-(全3册)-(含光盘)
¥24.6¥73.9 -
新概念心电图(第5版)
¥214.6¥298.0 -
阅读1+1工程——巴黎圣母院
¥13.8¥29.8 -
经济金融指标解读
¥28.4¥38.0 -
燕子号与亚马逊号(燕子谷历险)
¥18.8¥48.0 -
经典诵读伴我行(初学篇)
¥6.9¥15.0 -
《成本会计学(第10版·立体化数字教材版)》学习指导书(中国人民大学会计系列教材
¥33.3¥43.0
-
唐诗经典研读
¥20.7¥58.0 -
思想道德与法治(2021年版)
¥6.8¥18.0 -
落洼物语
¥10.9¥28.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
中医基础理论
¥51.7¥59.0 -
当代中国政府与政治(新编21世纪公共管理系列教材)
¥36.0¥48.0 -
毛泽东思想和中国特色社会主义理论体系概论(2021年版)
¥10.3¥25.0 -
法理学(第二版)
¥31.0¥50.0 -
客户经理(八品)
¥11.8¥42.0 -
无人机低空基站组网与优化
¥70.6¥98.0 -
当代中国政府与政治 第二版
¥58.8¥68.0 -
发展心理学(第3版普通高等教育国家级规划教材)
¥49.1¥58.0 -
刑法学 上下
¥114.4¥208.0 -
马克思主义基本原理2021年版
¥8.4¥23.0 -
智能控制
¥40.2¥56.0 -
素描基础教程
¥26.4¥59.0 -
心理学导论/张厚粲
¥28.6¥53.0 -
水利工程监理
¥28.3¥42.0 -
北京师范大学出版社历史学基础课系列教材中国古代史(下)(第4版)/宁欣
¥23.4¥52.0 -
水电站
¥24.4¥36.0