×
暂无评论
图文详情
  • ISBN:9787115635259
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:287
  • 出版时间:2024-02-01
  • 条形码:9787115635259 ; 978-7-115-63525-9

本书特色

1.本书是《大数据》编委会针对校企合作的精心力作。 2.本书凝结了曙光瑞翼多年的教学经验,能够满足校企融合教学的需求。 3.本书旨在介绍大数据预处理技术的基础知识,为即将学习大数据技术的读者奠定基础。 4.本书采用任务驱动的编写方式,读者可以直接进行实验效果体验,并进行自由调整。 5.本书采用大量的实践案例,结合行业典型应用,编写行业实践。 6.本书提供丰富的教学资源,包括电子课件、实验设计等。

内容简介

本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法,括数据抽取、数据清洗、数据集成、数据变换等。全书有9章,内容涉及数据采集、环境署、Kettle安装及应用、pandas应用,以及数据可视化的基础内容。本书采用任务式编写形式,将大数据预处理技术的理论和实现分解到一个个任务中,融入到一个个典型案例中,让读者在完成各任务的同时掌握和理解相关内容。 本书既有技术的深度,也有行业应用的广度,适合作为高等院校计算机、数据科学与大数据技术等相关业课程的教材,也适合作为数据处理行业从业人员的参考用书。

目录

第 1章 Scrapy电影数据采集 1 任务1.1 数据采集 1 1.1.1 数据采集概述 1 1.1.2 数据采集方法 1 1.1.3 数据采集应用 3 任务1.2 网络爬虫 4 1.2.1 网络爬虫概述 4 1.2.2 常用网络爬虫方法 4 1.2.3 常用网络爬虫工具 5 任务1.3 网络爬虫实战 6 1.3.1 获取网页 7 1.3.2 解析网页 9 1.3.3 应对反爬机制 11 本章题 12 第 2章 数据预处理环境安装 13 任务2.1 数据预处理出现的背景及其目的 13 2.1.1 数据预处理出现的背景 13 2.1.2 数据预处理的目的 14 任务2.2 数据预处理的流程 15 2.2.1 数据清洗 15 2.2.2 数据集成 17 2.2.3 数据归约 18 2.2.4 数据变换与数据离散化 23 2.3.5 数据预处理的注意事项 26 任务2.3 数据预处理的工具 26 2.3.1 Python预处理环境安装 27 2.3.2 Kettle的下载安装与Spoon的启动 30 本章题 34 第3章 Kettle的初步使用 35 任务3.1 Kettle的点 36 任务3.2 Kettle的使用 36 3.2.1 转换的基本概念 36 3.2.2 第 一个转换案例 39 本章题 53 第4章 基于Kettle的客户信息数据预处理 54 任务4.1 客户信息数据抽取 54 4.1.1 从文本文件读入性别参照数据 54 4.1.2 从Excel文件读入客户信息数据 56 4.1.3 从MySQL数据库读取城市区号参照数据 60 任务4.2 客户信息数据清洗 65 4.2.1 数据排序 65 4.2.2 去除重复数据 66 4.2.3 处理缺失值 73 4.2.4 字段清洗 75 4.2.5 字符串清洗 78 4.2.6 处理异常数据 82 任务4.3 将客户信息数据加载MySQL数据库 88 本章题 91 第5章 基于pandas的学生信息预处理 92 任务5.1 pandas详解 92 5.1.1 pandas的数据结构及基本功能 92 5.1.2 数据加载与存储 130 任务5.2 学生信息预处理 141 5.2.1 数据读取及查看 141 5.2.2 索引对象 144 5.2.3 数据排序 145 本章题 148 第6章 使用Python对运动员信息进行预处理 149 任务6.1 数据清洗 149 6.1.1 处理缺失数据 149 6.1.2 字符串 作 156 6.1.3 中国篮球运动员的基本信息清洗 163 任务6.2 数据集成 168 6.2.1 数据合并的常用方法 168 6.2.2 中国篮球运动员的基本信息合并 182 任务6.3 数据规约 183 6.3.1 数据规约方法 183 6.3.2 中国篮球运动员的基本信息规约 184 任务6.4 数据变换 185 6.4.1 数据变换常用方法 185 6.4.2 中国篮球运动员的基本信息数据变换 203 本章题 206 第7章 使用Python对电影人气进行预测(构建征工程) 207 任务7.1 征工程简介 207 7.1.1 征工程的重要性 207 7.1.2 征工程是什么 208 7.1.3 征工程的评估 208 任务7.2 电影人气预测 210 7.2.1 scikit-learn简介 210 7.2.2 征变换 211 7.2.3 征选择 222 7.2.4 电影人气预测征工程 237 本章题 255 第8章 基于Python的销售数据仓库应用案例 256 任务8.1 数据仓库简介 256 8.1.1 数据仓库出现的背景及其点 256 8.1.2 数据仓库的功能 257 8.1.3 数据仓库与数据库的区别 258 任务8.2 数据仓库模型 259 8.2.1 事实表和维度表 259 8.2.2 数据模型的分类 260 8.2.3 建模段划分 260 8.2.4 常用建模方法 261 8.2.5 星形模型和雪花模型 262 任务8.3 数据仓库案例 264 8.3.1 案例目的 264 8.3.2 案例背景 265 8.3.3 案例原理 265 8.3.4 案例环境 265 8.3.5 案例步骤 265 8.3.6 案例总结 273 本章题 273 第9章 Python数据分析师岗位分析 274 任务9.1 了解项目背景与目标 274 任务9.2 读取与清洗数据分析师岗位数据 275 9.2.1 分析目标与思路 275 9.2.2 数据收集 276 9.2.3 数据预处理 278 任务9.3 数据分析与可视化 281 9.3.1 数据分析师岗位的需求趋势 281 9.3.2 数据分析师岗位的热门城市Top10 283 9.3.3 不同城市数据分析师岗位的薪资水平 284 9.3.4 数据分析师岗位的学历要求 286 任务9.4 总结 287 本章题 287
展开全部

作者简介

许桂秋,主要研究方向大数据和人工智能,已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航