- ISBN:9787302678861
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:392
- 出版时间:2025-02-01
- 条形码:9787302678861 ; 978-7-302-67886-1
本书特色
本书特色
(1)细致讲解了Pandas的基础知识和常见用法,用简单实例阐述如何使用Pandas解决复杂的现实问题。
(2)提供了将Pandas与真实数据集结合使用的入门知识,涵盖组合数据集、处理缺失数据以及构建数据集等,指导建立预测、聚类、推理和探索的模型,便于进行数据分析和可视化。
(3)从基本的字符串操作到跨数据帧同时应用函数,书中内容涉及强大的数据清理技术。
(4)介绍如何利用Matplotlib、Seaborn、Statsmodels和Sklearn等库辅助进行Python数据分析,涵盖数据处理、数据可视化、数据建模等内容。
内容简介
基于实用、易学的原则,从功能、使用、原理等多个维度对Pandas做了全方位的详细讲解。本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手。具体内容包括:Python及Pandas基础知识,加载和查看数据集,Pandas的DataFrame对象和Series对象,使用matplotlib、seaborn和Pandas提供的绘图方法为探索性数据分析作图,连接与合并数据集,处理缺失数据,清理数据,转换数据类型,处理字符串,应用函数,分组操作,拟合及评估模型,正则化方法与聚类技术等。
前言
我的数据科学教学生涯始于2013年**次参加SoftwareCarpentry研讨班。此后,就一直在从事这方面的教学工作。2019年,我有幸成为RStudio(现为PBC Posit)教育集团的一名实习生。那时,数据科学教育方兴未艾。实习结束之后,我想将教学与医学的结合作为我的博士学位论文选题。幸运的是,我认识学校的一位图书管理员Andi Ogier,她把我介绍给了Anne M.Brown,Anne也对健康科学中的数据科学教学很感兴趣。之后的故事大家都知道了。Anne成为了我的博士生导师,我和指导委员会的其他成员,包括Dave Higdon、Alex Hanlon和Nikki Lewis,一起研究医学和生物医学领域中的数据科学教育。本书第1版为我的学位论文研讨班要讲授哪些数据科学的相关内容奠定了基础。本书第2版纳入了我在学习和研究教育和教学法时学到的许多内容。
在撰写本书的过程中,我遇到了很多人,也从他们身上学到了很多东西,其中很多都是关于*佳实践的,比如编写向量化语句以替代循环语句、测试代码,以及组织项目目录结构等。从实际的教学过程中我也学到了很多关于教学的知识,以教促学确实是学习新知识的*佳方法。在过去的几年里,我学到的很多东西都是在我试图弄清楚如何教别人时获得的。一旦掌握了基础知识,学习新内容就相对容易了。教与学的过程多次重复后,会惊讶于自己学会了很多,比如学会了用于谷歌搜索的很多术语,并能解读Stack Overflow页面的解答。很多高手也在搜索他人提出的问题。无论这是你学习的第几种编程语言,希望本书都能为你提供一个坚实的基础,为你搭建一座通往其他数据分析语言的桥梁。
目录
**部分引言
第1章Pandas DataFrame基础知识
1.1引言
1.2加载**个数据集
1.3查看列、行和单元格
1.3.1根据列名选择列并进行子集化
1.3.2对行进行子集化
1.3.3根据行号子集化行
1.3.4混合
1.3.5子集化行和列
1.4分组和聚合计算
1.4.1分组方式
1.4.2分组频率计数
1.5基本绘图
本章小结
第2章Pandas的数据结构
2.1创建数据
2.1.1创建Series
2.1.2创建DataFrame
2.2Series
2.2.1类似于ndarray的Series
2.2.2布尔型子集: Series
2.2.3自动对齐并向量化(广播)
2.3DataFrame
2.3.1DataFrame的组成
2.3.2布尔子集化DataFrames
2.3.3自动对齐和向量化(广播)
2.4更改Series和DataFrame
2.4.1添加列
2.4.2直接更改列
2.4.3使用.assign()方法修改列
2.4.4删除值
2.5导出和导入数据
2.5.1Pickle
2.5.2逗号分隔值
2.5.3Excel
2.5.4Feather文件格式
2.5.5Arrow
2.5.6Dictionary
2.5.7JavaScript对象表示法
2.5.8其他数据的输出类型
本章小结
第3章绘图入门
3.1为什么要将数据可视化
3.2Matplotlib基础
3.2.1图对象和坐标轴子图
3.2.2图形剖析
3.3使用Matplotlib绘制统计图
3.3.1单变量数据
3.3.2双变量数据
3.3.3多变量数据
3.4Seaborn
3.4.1单变量数据
3.4.2双变量数据
3.4.3多变量数据
3.4.4分面
3.4.5Seaborn的样式和主题
3.4.6如何浏览Seaborn文档
3.4.7下一代Seaborn接口
3.5Pandas绘图方法
3.5.1直方图
3.5.2密度图
3.5.3散点图
3.5.4蜂巢图
3.5.5箱线图
本章小结
第4章整洁数据
4.1包含值而非变量的列
4.1.1固定一列
4.1.2固定多列
4.2包含多个变量的列
4.2.1单独拆分和添加列
4.2.2在单个步骤中进行拆分和组合
4.3行与列中的变量
本章小结
第5章函数的应用
5.1函数入门
5.2函数应用基础
5.2.1Series的.apply()方法
5.2.2DataFrame的.apply()方法
5.3向量化函数
5.3.1使用NumPy
5.3.2使用Numba库
5.4Lambda函数
本章小结
第二部分数据处理
第6章数据组合
6.1组合数据集
6.2连接
6.2.1查看DataFrame的组成
6.2.2添加行
6.2.3添加列
6.2.4不同索引下的连接操作
6.3跨多张表的观测单元
6.3.1使用循环加载多个文件
6.3.2使用列表解析加载多个文件
6.4合并多个数据集
6.4.1一对一合并
6.4.2多对一合并
6.4.3多对多合并
6.4.4使用assert语句进行检查
本章小结
第7章数据规范化
7.1一张表中的多个观测单元
7.2数据规范化过程
本章小结
第8章分组操作: 分割应用组合
8.1聚合
8.1.1基本的单变量分组聚合
8.1.2Pandas内置的聚合方法
8.1.3聚合函数
8.1.4同时传入多个函数
8.1.5在.agg()方法中使用dict
8.2转换
8.2.1zscore示例
8.2.2缺失值示例
8.3过滤器
8.4pandas.core.groupby.DataFrameGroupBy对象
8.4.1分组
8.4.2涉及多个变量的分组计算
8.4.3选择分组
8.4.4遍历分组
8.4.5多个分组
8.4.6平铺结果
8.5使用多级索引
本章小结
第三部分数据类型
第9章缺失数据
9.1何为NaN值
9.2缺失值从何而来
9.2.1加载数据
9.2.2合并数据
9.2.3用户输入值
9.2.4重建索引
9.3处理缺失数据
9.3.1查找和统计缺失数据
9.3.2清理缺失数据
9.3.3缺失值计算
9.4Pandas内置的NA缺失值
本章小结
第10章数据类型
10.1常见的数据类型
10.2类型转换
10.2.1转换为字符串对象
10.2.2转换为数值类型
10.3分类数据
10.3.1转换为category类型
10.3.2操作分类数据
本章小结
第11章字符串和文本数据
11.1字符串
11.1.1子集化和字符串切片
11.1.2获取字符串的*后一个字符
11.2字符串方法
11.3更多字符串方法
11.3.1.join()方法
11.3.2.splitlines()方法
11.4字符串格式化
11.4.1格式化的文字字符串
11.4.2格式化数字
11.5正则表达式
11.5.1匹配模式
11.5.2记住RegEx模式
11.5.3查找模式
11.5.4替换模式
11.5.5编译模式
11.6regex库
本章小结
第12章日期和时间
12.1Python的datetime对象
12.2转换为datetime
12.3加载包含日期的数据
12.4提取日期的各个部分
12.5日期运算和timedeltas
12.6datetime方法
12.7获取股票数据
12.8基于日期子集化数据
12.8.1DatetimeIndex对象
12.8.2TimedeltaIndex对象
12.9日期范围
12.9.1频率
12.9.2偏移量
12.10日期变动
12.11重新采样
12.12时区
12.13arrow库
本章小结
第四部分数据建模
第13章线性回归
13.1简单线性回归
13.1.1使用statsmodels库
13.1.2使用Scikitlearn库
13.2多元回归
13.2.1使用statsmodels库
13.2.2使用Scikitlearn库
13.3包含分类变量的模型
13.3.1statsmodels中的分类变量
13.3.2Scikitlearn中的分类变量
13.4带Transformer Pipelines的Scikitlearn中的onehot编码
本章小结
第14章广义线性模型
14.1逻辑回归
14.1.1使用statsmodels库
14.1.2使用Scikitlearn库
14.1.3注意Scikitlearn默认值
14.2泊松回归
14.2.1使用statsmodels
14.2.2负二项回归
14.3更多的GLM
本章小结
第15章生存分析
15.1生存数据
15.2KaplanMeier曲线
15.3Cox比例风险模型
本章小结
第16章模型诊断
16.1比较单个模型
16.1.1残差
16.1.2QQ图
16.2比较多个模型
16.2.1比较线性模型
16.2.2比较GLM模型
16.3K折交叉验证
本章小结
第17章正则化
17.1为什么要正则化
17.2LASSO回归
17.3岭回归
17.4弹性网
17.5交叉验证
本章小结
第18章聚类
18.1K均值聚类
18.2层次聚类
18.2.1Complete聚类算法
18.2.2Single聚类算法
18.2.3Average聚类算法
18.2.4Centroid聚类算法
18.2.5Ward聚类算法
18.2.6手动设置阈值
本章小结
第五部分附录
附录A概念图
附录B安装和设置
B.1安装Python
B.1.1Anaconda
B.1.2Miniconda
B.1.3卸载Anaconda或Miniconda
B.1.4Pyenv
B.2安装Python包
B.3下载本书数据
附录C命令行
C.1安装
C.1.1Windows系统
C.1.2macOS
C.1.3Linux系统
C.2基础
附录D项目模板
附录EPython代码编写工具
E.1命令行和文本编辑器
E.2Python和iPython
E.3Jupyter
E.4集成开发环境
附录F工作目录
附录G环境
G.1Conda环境
G.2Pyenv Pipenv
附录H安装程序包
H.1使用Conda安装Python库
H.2更新程序包
附录I导入库
附录J代码风格
附录K容器: 列表、元组和dict
K.1列表
K.2元组
K.3dict
附录L切片值
附录M循环
附录N推导式
附录O函数
O.1默认参数
O.2任意参数
O.2.1*args
O.2.2**kwargs
附录P范围和生成器
附录Q多重赋值
附录Rnumpy.ndarray
附录S类
附录TCopyWarning设置
T.1修改数据子集
T.2替换值
T.3更多的资源
附录U方法链
附录V计时代码
附录W字符串格式化
W.1C语言风格
W.2字符串格式化: .format()方法
W.3格式化数字
附录X条件语句(ifelifelse)
附录Y纽约ACS逻辑回归示例
Y.1准备数据
Y.2使用Scikitlearn库
附录Z复制R语言中的结果
Z.1线性回归
Z.2逻辑回归
Z.3泊松回归
-
2025读书月阅读盲盒——我独钟意命运角落的人
¥42.3¥168.0 -
2025读书月阅读盲盒——经常作案的朋友都知道
¥42.3¥168.0 -
2025读书月阅读盲盒——你以为你以为的就是你以为的吗?
¥42.3¥168.0 -
莫言的奇奇怪怪故事集
¥22.2¥59.9 -
女性生存战争
¥24.4¥66.0 -
生死场
¥8.6¥36.0 -
悉达多
¥14.3¥28.0 -
阅读是一座随身携带的避难所
¥15.8¥39.0 -
1984-插图珍藏版
¥11.3¥29.8 -
东京梦华录
¥19.9¥46.0 -
中国近代史
¥15.5¥39.8 -
林徽因讲建筑
¥11.9¥29.0 -
刀锋
¥14.7¥46.0 -
给青年的十二封信
¥6.3¥15.0 -
她们
¥17.3¥46.8 -
面纱
¥19.4¥49.8 -
我的心曾悲伤七次
¥9.0¥25.0 -
茶,汤和好天气
¥10.1¥28.0 -
我从未如此眷恋人间
¥16.9¥49.8 -
瓦尔登湖
¥12.9¥39.0