
包邮大数据应用人才培养系列教材数据清洗/刘鹏

- ISBN:9787302493273
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:238
- 出版时间:2018-06-01
- 条形码:9787302493273 ; 978-7-302-49327-3
本书特色
数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。 本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集等;第8章介绍RDBMS的数据清洗方法和数据脱敏处理技术等。 本书系统地讲解了数据清洗理论和实际应用,适用于高职高专院校和应用型本科的大数据课程教学,也适用于希望了解数据清洗的广大读者。
内容简介
数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。本书共分为8章:靠前章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集等;第8章介绍RDBMS的数据清洗方法和数据脱敏处理技术等。本书系统地讲解了数据清洗理论和实际应用,适用于高职高专院校和应用型本科的大数据课程教学,也适用于希望了解数据清洗的广大读者。
目录
作者简介
李法平- 副教授/系统分析师,硕士,重庆电子工程职业学院软件学院移动应用开发教研室主任,主要从事高职软件类专业教学研究、教育信息化系统和企业信息化系统等应用技术研究。
-
思想道德与法治(2021年版)
¥6.8¥18.0 -
落洼物语
¥9.4¥28.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
中医基础理论
¥51.7¥59.0 -
毛泽东思想和中国特色社会主义理论体系概论(2021年版)
¥9.0¥25.0 -
当代中国政府与政治(新编21世纪公共管理系列教材)
¥36.0¥48.0 -
艺术学概论
¥14.5¥37.4 -
毛泽东思想和中国特色社会主义理论体系概论
¥10.5¥25.0 -
智能控制
¥40.2¥56.0 -
社会学概论(第二版)
¥34.0¥55.0 -
法理学(第二版)
¥18.0¥50.0 -
全国中医药行业高等教育“十三五”规划教材中医养生学/马烈光/十三五规划
¥36.8¥55.0 -
基于python的从学习编程到解决问题
¥35.4¥53.8 -
水利工程监理
¥28.3¥42.0 -
新编大学生军事理论与训练教程
¥13.7¥39.8 -
世界现代史(1900-2000)
¥31.4¥80.0 -
水电站
¥24.4¥36.0 -
公路工程机械化施工技术-(第二版)
¥18.6¥32.0 -
香辛料原理与应用(第二版)
¥52.0¥68.0 -
电力系统暂态分析
¥24.2¥40.0