- ISBN:9787302663539
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:660
- 出版时间:2024-06-01
- 条形码:9787302663539 ; 978-7-302-66353-9
本书特色
在《Pandas实战》中,你将看到经验丰富的数据科学家如何使用Pandas进行数据分析来解决各种问题。与其他Python书籍侧重于理论并花太多时间在枯燥的技术解释上不同,本书旨在让你快速编写干净的代码,通过动手实践建立你的理解。
内容简介
《Pandas实战》详细阐述了与Pandas数据分析相关的基本知识,主要包括数据结构、数据的输入和输出、Pandas数据类型、数据选择、数据探索和转换、理解数据可视化、数据建模、在Pandas中使用时间、探索时间序列、Pandas数据处理案例研究等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。
目录
第1章 初识Pandas 3
1.1 Pandas世界介绍 3
1.2 探索Pandas的历史和演变 4
1.3 Pandas的组件和应用 4
1.4 了解Pandas的基本概念 5
1.4.1 Series对象 7
1.4.2 DataFrame对象 8
1.4.3 使用本地文件 11
1.4.4 读取CSV文件 12
1.4.5 显示数据快照 12
1.4.6 将数据写入文件中 13
1.4.7 练习1.1—使用Pandas读取和写入数据 13
1.4.8 Pandas中的数据类型 15
1.4.9 数据选择 18
1.4.10 数据转换 20
1.4.11 数据可视化 20
1.4.12 时间序列数据 22
1.4.13 代码优化 24
1.4.14 实用工具函数 25
1.4.15 练习1.2—使用Pandas进行基本数值运算 29
1.4.16 数据建模 36
1.4.17 练习1.3—比较两个DataFrame的数据 37
1.5 作业1.1—比较两家商店的销售数据 44
1.6 小结 45
第2章 数据结构 47
2.1 数据结构简介 47
2.2 对数据结构的需求 48
2.2.1 数据结构 49
2.2.2 在Pandas中创建DataFrame 50
2.2.3 练习2.1—创建DataFrame 56
2.3 了解索引和列 58
2.3.1 练习2.2—读取DataFrame并进行索引操作 65
2.3.2 使用列 69
2.4 使用Pandas Series 71
2.4.1 Series索引 72
2.4.2 练习2.3—从Series到DataFrame 76
2.4.3 使用时间作为索引 80
2.4.4 练习2.4—DataFrame索引 83
2.5 作业2.1—使用Pandas数据结构 86
2.6 小结 87
第3章 数据的输入和输出 89
3.1 数据世界 89
3.2 探索数据源 93
3.2.1 文本文件和二进制文件 93
3.2.2 在线数据源 95
3.2.3 练习3.1—从网页中读取数据 97
3.3 基本格式 99
3.3.1 文本数据 99
3.3.2 练习3.2—文本字符编码和数据分隔符 109
3.3.3 二进制数据 111
3.3.4 数据库—SQL数据 112
3.3.5 sqlite3 113
3.4 其他文本格式 114
3.4.1 使用JSON 115
3.4.2 使用HTML/XML 118
3.4.3 使用XML数据 120
3.4.4 使用Excel 122
3.4.5 SAS数据 125
3.4.6 SPSS数据 126
3.4.7 Stata数据 127
3.4.8 HDF5数据 128
3.5 操作SQL数据 129
3.5.1 使用Pandas操作数据库 129
3.5.2 练习3.3—使用SQL 134
3.5.3 为项目选择格式 138
3.6 作业3.1—使用SQL数据进行Pandas分析 139
3.7 小结 140
第4章 Pandas数据类型 141
4.1 Pandas dtypes简介 141
4.1.1 了解基础数据类型 141
4.1.2 从一种类型转换为另一种类型 145
4.1.3 练习4.1—基础数据类型和转换 149
4.2 缺失数据类型 156
4.2.1 缺失值的表示 156
4.2.2 可为空类型 157
4.2.3 练习4.2—将缺失数据转换为不可为空的数据类型 159
4.3 作业4.1—通过转换为适当的数据类型来优化内存使用 163
4.4 按数据类型创建子集 164
4.4.1 字符串方法 164
4.4.2 使用category类型 167
4.4.3 使用dtype = datetime64[ns] 169
4.4.4 使用dtype = timedelta64[ns] 174
4.4.5 练习4.3—使用字符串方法处理文本数据 175
4.4.6 按数据的dtype在DataFrame中选择数据 178
4.5 小结 181
第2篇 处 理 数 据
第5章 数据选择—DataFrame 185
5.1 DataFrame简介 185
5.1.1 Pandas DataFrame操作的关联性 185
5.1.2 对数据选择方法的需求 186
5.2 Pandas DataFrame中的数据选择 187
5.2.1 索引及其形式 189
5.2.2 练习5.1—识别数据集中的行和列索引 191
5.2.3 保存索引或列 193
5.2.4 切片和索引方法 194
5.2.5 布尔索引 203
5.2.6 练习5.2—创建行和列的子集 204
5.2.7 使用标签作为索引和Pandas多级索引 206
5.2.8 从列中创建多级索引 211
5.3 作业5.1—从列中创建多级索引 214
5.4 括号和点表示法 216
5.4.1 括号表示法 216
5.4.2 点表示法 216
5.4.3 选择整列 217
5.4.4 选择一个行范围 219
5.4.5 练习5.3—整数行号与标签 220
5.4.6 使用扩展索引 223
5.4.7 类型异常 226
5.5 使用括号或点表示法更改DataFrame值 228
5.5.1 使用括号表示法轻松修改数据 228
5.5.2 链式操作可能产生的问题及其解决方案 229
5.5.3 练习5.4—使用括号和点表示法选择数据 232
5.6 小结 236
第6章 数据选择—Series 237
6.1 Pandas Series介绍 237
6.2 Series索引 237
6.2.1 Pandas Series中的数据选择 239
6.2.2 括号表示法、点表示法、Series.loc和Series.iloc 239
6.2.3 练习6.1—基本Series数据选择 243
6.3 从DataFrame中创建Series或从Series中获取DataFrame 246
6.3.1 从DataFrame中创建Series 246
6.3.2 从Series中获取DataFrame 248
6.3.3 练习6.2—使用Series索引选择值 251
6.4 作业6.1—Series数据选择 255
6.5 了解基础Python和Pandas数据选择之间的差异 256
6.5.1 列表与Series访问 256
6.5.2 DataFrame与字典访问 257
6.6 作业6.2—DataFrame数据选择 259
6.7 小结 261
第7章 数据探索和转换 263
7.1 数据转换简介 263
7.2 处理混乱的数据 263
7.2.1 处理没有列标题的数据 264
7.2.2 一列中的多个值 269
7.2.3 行和列中的重复观察值 274
7.2.4 练习7.1—处理格式混乱的地址 276
7.2.5 多个变量被存储在一列中 280
7.2.6 具有相同结构的多个DataFrame 284
7.2.7 练习7.2—按人口统计信息存储销售数据 287
7.3 处理缺失数据 293
7.3.1 关于缺失数据 293
7.3.2 缺失数据的处理策略 294
7.3.3 应用删除策略 294
7.3.4 应用插补策略 296
7.4 汇总数据 299
7.4.1 分组和聚合 299
7.4.2 探索数据透视表 304
7.5 作业7.1—使用数据透视表进行数据分析 308
7.6 小结 310
第8章 理解数据可视化 311
8.1 数据可视化简介 311
8.2 了解Pandas可视化的基础知识 312
8.2.1 使用plot()函数绘图 312
8.2.2 练习8.1—为泰坦尼克号数据集构建直方图 321
8.3 探索Matplotlib 324
8.4 可视化不同类型的数据 330
8.4.1 可视化数值数据 331
8.4.2 可视化分类数据 337
8.4.3 可视化统计数据 342
8.4.4 练习8.2—泰坦尼克号数据集的箱线图 344
8.4.5 可视化多个数据图 348
8.5 作业8.1—使用数据可视化进行探索性数据分析 350
8.6 小结 351
第3篇 数 据 建 模
第9章 数据建模—预处理 355
9.1 数据建模简介 355
9.2 探索因变量和自变量 356
9.2.1 拆分训练集、验证集和测试集 366
9.2.2 练习9.1—创建训练、验证和测试数据 374
9.2.3 避免信息泄露 379
9.2.4 完整的模型验证 380
9.3 了解数据缩放和归一化 381
9.3.1 缩放数据的不同方法 381
9.3.2 自己缩放数据 382
9.3.3 *小值/*大值缩放 383
9.3.4 *小值/*大值缩放用例—神经网络 384
9.3.5 标准化—解决差异问题 386
9.3.6 转换回真实单位 390
9.3.7 练习9.2—缩放和归一化数据 390
9.4 作业9.1—数据拆分、缩放和建模 396
9.5 小结 397
第10章 数据建模—有关建模的基础知识 399
10.1 数据建模简介 399
10.2 了解建模基础知识 400
10.2.1 建模工具 400
10.2.2 Pandas建模工具 400
10.2.3 其他重要的Pandas方法 410
10.2.4 窗口函数 411
10.2.5 窗口方法 414
10.2.6 平滑数据 417
10.3 预测时间序列的未来值 427
10.3.1 以原始日期为中心的平滑窗口 427
10.3.2 使用加权窗口平滑数据 430
10.3.3 练习10.1—平滑数据以发现模式 432
10.4 作业10.1—归一化和平滑数据 436
10.5 小结 437
第11章 数据建模—回归建模 439
11.1 回归建模简介 439
11.2 探索回归建模 440
11.2.1 使用线性模型 446
11.2.2 练习11.1—线性回归 450
11.2.3 非线性模型 455
11.3 模型诊断 455
11.3.1 比较预测值和实际值 455
11.3.2 使用Q-Q图 457
11.3.3 练习11.2—多元回归和非线性模型 462
11.4 作业11.1—实现多元回归 472
11.5 小结 483
第4篇 其他Pandas用例
第12章 在Pandas中使用时间 487
12.1 时间序列简介 487
12.2 Pandas datetime 488
12.2.1 datetime对象的属性 489
12.2.2 练习12.1—使用datetime 491
12.2.3 创建和操作日期时间对象/时间序列 497
12.2.4 Pandas中的时间周期 500
12.2.5 Pandas时间感知对象中的信息 501
12.2.6 练习12.2—日期时间的数学 503
12.2.7 时间戳格式 507
12.2.8 日期时间本地化 509
12.2.9 时间戳限制 509
12.3 作业12.1—了解电力使用情况 510
12.4 日期时间数学运算 514
12.4.1 日期范围 514
12.4.2 时间差值、偏移量和差异 516
12.4.3 日期偏移 518
12.4.4 练习12.3—时间差值和日期偏移 521
12.5 小结 525
第13章 探索时间序列 527
13.1 使用时间序列作为索引 527
13.1.1 时间序列周期/频率 527
13.1.2 移动、滞后和转换频率 529
13.2 按时间重采样、分组和聚合 530
13.2.1 使用重采样方法 531
13.2.2 练习13.1—聚合和重采样 535
13.2.3 使用滚动方法的窗口操作 539
13.3 作业13.1—创建时间序列模型 545
13.4 小结 550
第14章 Pandas数据处理案例研究 551
14.1 案例研究和数据集简介 551
14.2 预处理步骤回顾 552
14.2.1 预处理德国气象数据 555
14.2.2 练习14.1—预处理德国气象数据 556
14.2.3 练习14.2—合并DataFrame和重命名变量 560
14.2.4 练习14.3—插补数据并回答问题 563
14.2.5 练习14.4—使用数据可视化来回答问题 566
14.2.6 练习14.5—使用数据可视化来回答问题 573
14.2.7 练习14.6—分析公交车轨迹数据 576
14.3 作业14.1—分析空气质量数据 584
14.4 小结 585
附录A 作业答案 587
作业1.1答案 587
作业2.1答案 590
作业3.1答案 592
作业4.1答案 594
作业5.1答案 599
作业6.1答案 601
作业6.2答案 604
作业7.1答案 607
作业8.1答案 610
作业9.1答案 616
作业10.1答案 619
作业11.1答案 626
作业12.1答案 641
作业13.1答案 648
作业14.1答案 654 ·XVI·
Pandas实战
·XVII·
目 录
作者简介
布莱恩·贝特曼拥有超过35年的多个行业的工作经验,从政府研发机构到初创企业再到价值10亿美元的上市公司,他都有任职经历。他的经验侧重于分析,包括机器学习和预测。他的实践能力包括Python和R编码、Keras/TensorFlow以及AWS和Azure机器学习服务。作为机器学习顾问,他开发并部署了工业中实际的机器学习模型。
-
AI绘画+AI摄影+AI短视频从入门到精通
¥45.5¥79.8 -
企业AI之旅
¥43.5¥79.0 -
乡村振兴新技术:新时代农村短视频编辑技术基础入门
¥12.8¥32.0 -
机器学习
¥59.4¥108.0 -
C Primer Plus 第6版 中文版
¥62.6¥108.0 -
基于知识蒸馏的图像去雾技术
¥61.6¥88.0 -
粒子群算法在优化选取问题中的应用研究
¥40.8¥68.0 -
Web前端开发基础
¥36.5¥57.0 -
智能算法优化及其应用
¥49.0¥68.0 -
Photoshop图像处理
¥25.5¥49.0 -
SNS信息传播分析
¥48.3¥69.0 -
R语言医学数据分析实践
¥72.3¥99.0 -
大模型推荐系统:算法原理、代码实战与案例分析
¥66.8¥89.0 -
HARMONYOS NEXT启程:零基础构建纯血鸿蒙应用
¥75.6¥108.0 -
剪映 从入门到精通
¥25.7¥59.8 -
游戏造梦师----游戏场景开发与设计
¥68.6¥98.0 -
SAR图像处理与检测
¥35.4¥49.8 -
生成式人工智能(AIGC)应用
¥71.1¥90.0 -
人工智能
¥29.4¥42.0 -
中文版PHOTOSHOP 2024+AI修图入门教程
¥59.3¥79.0