高等职业教育系列教材数据清洗(高等职业教育系列教材)
温馨提示:5折以下图书主要为出版社尾货,大部分为全新(有塑封/无塑封),个别图书品相8-9成新、切口有划线标记、光盘等附件不全详细品相说明>>
- ISBN:9787111657156
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:236
- 出版时间:2020-07-01
- 条形码:9787111657156 ; 978-7-111-65715-6
本书特色
适读人群 :高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的学生1)采用“理实一体化”的教学方式,既有教师授课部分又有让学生独立思考、上机操作的内容。 2)包含丰富的教学资源,本书配有微课视频、教学课件、习题答案等。 3)紧跟时代潮流,注重技术变化,书中包含了*新的大数据分析知识及一些开源库的使用。 4)编写本书的教师都具有多年的教学经验,重难点突出,能够激发学生的学习热情。
内容简介
《数据清洗》主要介绍数据清洗技术的基本概念与应用。全书共有8章,分别讲述了数据清洗基础、数据清洗方法、文件类型、数据采集与抽取、Excel数据清洗与转换、ETL数据清洗与转换、Python数据清洗、R语言数据清洗。 《数据清洗》将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用大数据清洗的相关技术。针对书中重要的、核心的知识点,提供了较多的练习,帮助读者达到熟练应用的目的。 《数据清洗》可作为高职高专院校大数据技术与应用、软件技术、信息管理、计算机网络等专业的专业课教材,也可作为大数据爱好者的参考书。
目录
前言
第1章 数据清洗基础
11 数据清洗概述
111 数据清洗的定义
112 数据清洗的对象
113 数据清洗的原理
114 数据清洗的评估
115 数据清洗的框架模型
116 数据清洗研究与应用展望
117 数据清洗的行业发展
12 数据标准化
121 数据标准化简介
122 数据标准化方法
123 数据标准化的实例
13 数据清洗的常用工具
14 实训1 安装和运行Kettle
15 实训2 安装和运行OpenRefine
16 实训3 安装和运行Python 3
17 小结
习题1
第2章 数据清洗方法
21 数据质量
211 数据质量的定义
212 数据质量中的常见术语
22 数据预处理
221 数据预处理简介
222 数据预处理方法
23 数据清洗方法
231 数据缺失值的处理方法
232 噪声数据的处理方法
233 冗余数据的处理方法
234 数据格式与内容的处理方法
24 数据清洗中的统计学基础
25 实训1 找出离群点
26 实训2 找出统计对象
27 实训3 找出数据清洗的步骤
28 实训4 找出异常数据
29 小结
习题2
第3章 文件类型
31 文件格式
311 文件格式概述
312 Windows中常见的文件格式
32 数据类型与字符编码
321 数据类型概述
322 字符编码
323 用Python读取文件
324 数据转换
33 数据转换的实现
331 用Python生成与读取CSV文件
332 用Python读取与转换JSON文件
34 实训1 将XML文件转换为JSON文件
35 实训2 将JSON文件转换为CSV文件
36 小结
习题3
第4章 数据采集与抽取
41 数据采集概述
411 了解数据采集
412 日志数据采集与处理的常见方法
413 数据采集平台
414 数据采集工具
42 网页数据采集与实现
421 网络爬虫概述
422 网页数据采集的实现
43 数据抽取
431 数据抽取概述
432 文本数据抽取
433 网页数据抽取
44 实训1 使用Kettle抽取本地XML文件
45 实训2 使用Kettle抽取CSV数据并输出为文本文件
46 小结
习题4
第5章 Excel数据清洗与转换
51 Excel数据清洗概述
511 Excel简介
512 Excel数据清洗与转换方法
52 Excel数据清洗与转换的实现
521 常用数据分析函数介绍
522 删除重复行
523 文本查找和替换
524 数据替换
525 字符串截取
526 字母大小写转换
527 删除空格和非打印字符
528 数字和数字符号的转换
529 日期和时间处理
5210 合并和拆分列
5211 数据的转置
5212 数据查询和引用
53 实训1 清洗简单数据
54 实训2 清洗复杂数据
55 小结
习题5
第6章 ETL数据清洗与转换
61 数据仓库与ETL
611 数据仓库
612 ETL概述
62 Kettle数据清洗与转换基础
621 Kettle数据清洗
622 Kettle数据转换
63 Kettle数据仓库高级应用
64 实训1 在Kettle中识别流的*后一行并写入日志
65 实训2 在Kettle中用正则表达式清洗数据
66 实训3 使用Kettle过滤数据表
67 实训4 使用Kettle生成随机数并相加
68 小结
习题6
第7章 Python数据清洗
71 Python数据清洗基础
711 Python语言基础
712 Python数据清洗所用库
72 数据读写、选择、整理和描述
721 从CSV文件读取数据
722 写入数据到CSV文件
723 数据整理和描述
73 数据分组、分割、合并和变形
731 数据分组
732 数据分割
733 数据合并
734 数据变形
74 缺失值、异常值和重复值处理
741 缺失值处理
742 异常值检测和过滤
743 移除重复数据
75 时间序列处理
751 Python的日期与时间工具
752 Pandas时间序列数据结构
76 字符串处理
761 Python字符串方法列表
762 Python正则表达式
763 Pandas的字符串方法
77 实训1 清洗企业员工信息
78 实训2 清洗在校生饮酒消费数据
79 小结
习题7
第8章 R语言数据清洗
81 R语言简介
82 R语言基础
821 R语言运算符号
822 R语言数据类型
83 R语言datatable数据包
831 datatable数据包介绍
832 创建datatable对象
作者简介
黄源,重庆航天职业技术学院副教授,参加工作以来,一直从事计算机课程的教学与科研,公开发表科研,教改论文多篇,并于2013年获得副教授职称。积极参加学校的精品课程建设与微课改革,出版专著3部,以前参编的北大出版社《网页设计教程与实训》曾获教材一等奖。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥77.4¥109.0 -
UG NX 12.0数控编程
¥22.1¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥84.5¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0