数据准备:从获取到整理(数据分析与应用丛书)
- ISBN:9787300307985
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:244
- 出版时间:2022-07-01
- 条形码:9787300307985 ; 978-7-300-30798-5
内容简介
数据的获取方式、数据的形式及其结构纷繁芜杂,如何把数据整理成我们想要的样子呢?本书通过真实案例构建了数据准备过程中的方法与技术体系,并通过Python 3编程实现从数据获取到数据整理的全过程。
全书内容包括数据来源、数据类型、数据编码、数据清洗、数据插补、数据配平、数据重构、数据变换、数据缩放和数据归约。为使读者能够快速掌握数据准备的方法与技术,本书的数据文件与程序代码均可下载(见封底二维码)。线上操作平台地址为http://ykt.ai-learning.net。
本书既可作为高等院校的数据分析类课程教材,也可作为社会科学领域数据分析的自学用书。从事数据分析与数据管理工作的相关人员,以及用Python解决实际数据分析问题的工程技术和管理人员亦可参考使用。
目录
1.1 调查和观察数据
1.1.1 调查数据
1.1.2 观察数据
1.2 数据库数据
1.2.1 关系型数据库
1.2.2 非关系型数据库
1.3 爬虫数据
1.4 日志数据
第 2 章 数据类型
2.1 结构化数据
2.1.1 基本数据类型
2.1.2 二维表结构数据
2.2 集合数据类型
2.2.1 列表
2.2.2 元组
2.2.3 字典
2.2.4 集合
2.2.5 推导式
2.3 其他常见的结构化数据
2.3.1 数组
2.3.2 矩阵
2.3.3 数列
2.3.4 数据帧
2.3.5 日期时间型数据
2.4 非结构化数据
2.4.1 网页与 JSON 数据
2.4.2 图像数据
2.4.3 音频数据
2.4.4 视频数据
第 3 章 数据编码
3.1 数据编码的基本要求和原则
3.2 数据编码的结构类型
3.2.1 分类编码
3.2.2 顺序编码
3.2.3 分段编码
3.2.4 值标签编码
3.2.5 Dummy/虚拟变量编码
3.2.6 尺度编码
第 4 章 数据清洗
4.1 异常值清洗
4.1.1 异常值识别
4.1.2 异常值处理
4.2 重复数据清洗
4.2.1 重复数据检测
4.2.2 重复数据删除
4.3 低频类别清洗
4.3.1 观察低频识别
4.3.2 低频类别处理
4.4 数据纠错
4.4.1 逻辑纠错
4.4.2 格式纠错
4.5 数据纠偏
4.5.1 数据偏度识别和测量
4.5.2 数据偏度的纠正
第5 章 数据插补
5.1 缺失值产生原因及其表现
5.1.1 缺失值的含义
5.1.2 缺失值的类型
5.1.3 缺失值产生的原因
5.1.4 缺失值的影响
5.1.5 缺失值的表现形式
5.2 缺失值插补
5.2.1 简单统计量插补
5.2.2 聚类插补
5.2.3 模型插补
5.3 MVP
5.3.1 MVP 分析思路
5.3.2 MVP 提取方法
第 6 章 数据配平
6.1 不平衡数据
6.1.1 不平衡数据的含义
6.1.2 不平衡数据的影响
6.2 数据配平方法
6.2.1 欠采样
6.2.2 过采样
6.2.3 混合采样
6.3 数据配平的影响
6.3.1 数据配平的效果
6.3.2 模型预测结果的偏离及其校正方法
6.3.3 欠采样对预测稳定性的影响
第 7 章 数据重构
7.1 数据组合
7.1.1 序列组合
7.1.2 水平组合
7.1.3 垂直组合
7.1.4 深度组合
7.1.5 列组合
7.1.6 行组合
7.2 轴向连接
7.2.1 左右拼接
7.2.2 数据追加
7.3 数据融合
7.3.1 键融合
7.3.2 索引融合
7.3.3 插补融合
7.4 数据重塑
7.4.1 Panel
7.4.2 层次化索引
7.4.3 stack与unstack
7.5 数据分拆
7.5.1 水平分拆
7.5.2 垂直分拆
7.5.3 深度分拆
7.5.4 逻辑分拆
7.5.5 随机采样与数据分割
7.6 数据聚合
第 8 章 数据变换
8.1 数据变换的含义和作用
8.2 连续数据函数变换
8.2.1 对数变换
8.2.2 平方根变换
8.2.3 平方变换
8.2.4 倒数变换
8.2.5 幂变换与 BOX-COX 变换 176
8.3 连续数据离散化
8.3.1 客观法
8.3.2 主观法
8.4 数据次序化
8.4.1 升降次序
8.4.2 位置与秩
8.4.3 秩的计算方法
8.4.4 秩的缺失值处理
8.4.5 DataFrame 中的秩
8.5 多分类数据哑变量化
8.5.1 哑变量的概念与特征
8.5.2 哑变量与 one-hot 码
8.5.3 多分类数据转换为哑变量 196
8.5.4 多分类数据转换为 one-hot 码
8.6 定性数据数量化
8.6.1 顺序数据转化为得分
8.6.2 构造定性数据的平滑值
第 9 章 数据缩放
9.1 数据缩放的概念
9.2 数据缩放方法
9.2.1 中心化
9.2.2 标准化
9.2.3 Min-Max 缩放
9.2.4 Max-ABS 缩放
9.2.5 Robust 缩放
第 10 章 数据归约
10.1 数据归约的概念
10.2 变量选择方法
10.2.1 使用统计量
10.2.2 决策树模型
10.2.3 Lasso 算法
10.3 样本归约
参考文献
节选
数据科学与大数据时代如果没有数据便如巧妇难为无米之炊,数据已经成为生产要素之一。因此,数据的收集与获取显得尤为重要。在当今以数字经济、人工智能、元宇宙等主要技术为发展特征的客观世界中,数据是*基本的构成元素。在分析数据之前,应当搞清楚数据的来源,同时注重数据质量,只有数据可靠,才能客观真实地用数据来描绘和分析我们所要研究的问题,才能实现从数据到价值的过程。 数据形式繁多,其来源渠道也较为繁杂。在数据分析中,整理、分析和建模的对象即数据。按照人们对数据的认知程度,从数据到价值的过程可细分为三个阶段:数据从不可得状态变为可得状态,从可得状态变为可用状态,从可用状态变为实现其价值状态。其中,数据从不可得状态转化为可得状态的过程,便是人们熟悉的数据收集阶段,可以采用抽样、统计调查等手段进行数据收集,从而为数据从可得状态转化为可用状态并实现其价值做好准备。
作者简介
阮敬 博士、教授、博士生导师。首都经济贸易大学数据科学学院副院长。兼任第七届全国统计教材编审委员会学术委员、数据科学与大数据应用组副组长,中国现场统计研究会副秘书长、经济与金融统计分会副理事长,中国统计教育学会副秘书长、高等教育分会秘书长,全国工业统计学教学研究会常务理事,中国青年统计学家协会创会秘书长,北京大数据协会副会长、秘书长,《统计学报》《统计与精算》编委等。研究领域为经济统计、大数据分析。在国内外发表论文70余篇,出版专著、译著、教材16部。主持***和省部级科研项目及企事业单位横向课题50余项。荣获全国统计科学研究优秀成果奖、全国应用统计专业学位研究生优秀教育教学成果奖、北京市哲学社会科学优秀成果奖、北京市优秀调查研究成果奖等10余项省部级及以上科研和教学奖励。 任韬 博士、教授、博士生导师。首都经济贸易大学商务学院院长。兼任北京大数据协会副会长,中国商业统计学会常务理事、市场调查与教学研究分会副会长兼秘书长、数据科学与商业智能分会副会长,中国国民经济核算研究会常务理事等。主要研究方向为大数据分析,经济统计学。主持多项国家社会科学基金项目、教育部人文社会科学基金项目。在国内外发表学术论文20余篇,出版学术专著及教材7部。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0