- ISBN:9787115616456
- 装帧:平装
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:310
- 出版时间:2024-05-01
- 条形码:9787115616456 ; 978-7-115-61645-6
本书特色
通过本书的学习,读者能够:
·掌握数据挖掘的相关软件包,如dplyr、ggplot2等。
·学会如何通过数据挖掘标准流程(CRISP-DM)来有效地组织数据挖掘项目。
·对数据执行数据清理和数据验证操作—为数据挖掘活动准备数据。
·以数值方式和图形方式分别执行探索性数据分析。
·开发简单线性回归模型、多元线性回归模型以及逻辑回归模型。
·应用基本的集成学习技术整合不同数据挖掘模型的结果。
·对非结构化的PDF文件和文本数据执行文本挖掘及分析。
·编制有效传达数据分析目标、方法和洞察的报告。
内容简介
本书通过循序渐进的介绍,让读者借助基础以及优选的数据挖掘技术,帮助一个虚拟的商业公司解决对其造成负面影响的真实欺诈案例。通过全程参与这一极不寻常的数据挖掘案例,读者将会掌握数据挖掘方面的强大技能。 本书非常适合想通过R语言快速了解数据挖掘、预测分析、商业分析等领域的数据科学家和数据分析员阅读,也适合高等院校数据挖掘相关专业师生和对数据挖掘感兴趣的技术人员参考。
目录
1.1 什么是 R 语言 1
1.2 R 语言的发展历史 2
1.3 R 语言的优势 2
1.3.1 开源 3
1.3.2 插件就绪 3
1.3.3 数据可视化友好 4
1.4 安装 R 语言、编写 R 语言
代码 5
1.4.1 下载 R 语言软件包 5
1.4.2 应用于 Windows 平台和
MacOS 平台的 R 语言
软件包 5
1.4.3 应用于 Linux 平台的
R 语言软件包 6
1.4.4 基础版本 R 语言包安装的
主要组件 6
1.4.5 编写 R 语言及运行 R 语言
代码的替代平台 8
1.5 R 语言的基本概念 11
1.5.1 R 语言初级入门 11
1.5.2 向量(Vector) 14
1.5.3 列表(Lists) 15
1.5.4 数据帧(Data frames) 17
1.5.5 函数(Functions) 18
1.6 R 语言的劣势以及如何克服
这些劣势 20
1.6.1 高效学习 R 语言,
*小化精力投入 21
1.6.2 通过 R 语言操作大型
数据集 24
1.7 更多参考 25
1.8 小结 25
第 2 章 数据挖掘入门-读者银行账户
数据分析 26
2.1 获取并准备银行数据 26
2.1.1 数据模型 27
2.2 使用数据透视表汇总数据 27
2.2.1 管道操作符简介 29
2.2.2 dplyr 程序包简介 30
2.2.3 安装必要程序包并将
个人数据加载到 R 语言
环境中 31
2.2.4 确定每月和每天的
费用总额 32
2.4 使用 ggplot2 程序包对数据进行
可视化处理 36
2.4.1 数据可视化基本
原理 36
2.4.2 使用 ggplot 程序包来进行
数据可视化 42
2.5 更多参考 47
2.6 小结 47
第 3 章 数据挖掘进阶-数据挖掘标准
流程(CRISP-DM)方法论 49
3.1 数据挖掘标准流程(CRISP-DM)
方法论之数据挖掘周期 50
3.2 业务理解 51
3.3 数据理解 51
3.3.1 数据收集 52
3.3.2 数据描述 52
3.3.3 数据探索 53
3.4 数据准备 57
3.5 建模 57
3.5.1 定义数据建模策略 58
3.6 评估 59
3.6.1 聚类评估 59
3.6.2 分类评估 60
3.6.3 回归评估 60
3.6.4 如何判断模型性能的
充分性 61
3.7 部署 62
3.7.1 部署计划开发 62
3.7.2 维护计划开发 63
3.8 小结 64
第4 章 保持室内整洁-数据挖掘架构 65
4.1 概述 65
4.2 数据源 67
4.2.1 数据源类型 68
4.3 数据库和数据仓库 69
4.3.1 中间层-数据集市 70
4.3.2 单层架构的数据仓库 70
4.3.3 双层架构的数据仓库 71
4.3.4 三层架构的数据
仓库 71
4.3.5 实际应用的技术 72
4.4 数据挖掘引擎 73
4.4.1 解释器 74
4.4.2 引擎和数据仓库之间的
接口 74
4.4.3 数据挖掘算法 74
4.5 用户界面 75
4.5.1 清晰性原则 76
4.6 如何使用 R 语言来创建数据
挖掘架构 79
4.6.1 数据源 79
4.6.2 数据仓库 80
4.6.3 数据挖掘引擎 80
4.6.4 用户界面 81
4.7 更多参考 82
4.8 小结 82
第 5 章 如何解决数据挖掘问题-数据
清洗和验证 83
5.1 安静祥和的一天 83
5.2 数据清洗 85
5.2.1 Tidy data 框架 85
5.2.2 分析数据的结构 87
5.2.3 数据整理 93
5.2.4 验证数据 99
5.2.5 数据合并 109
5.3 更多参考 111
5.4 小结 111
第 6 章 观察数据 - 探索性数据
分析 113
6.1 汇总 EDA 介绍 113
6.1.1 描述总体分布 114
6.1.2 测定变量之间的
相关性 124
6.2 图形化 EDA 130
6.2.1 变量分布可视化 131
6.2.2 变量关系可视化 136
6.2.3 更多参考 141
6.3 小结 141
第 7 章 *初的猜想-线性回归 142
7.1 定义数据建模策略 143
7.1.1 数据建模相关概念 146
7.2 应用线性回归 148
7.2.1 线性回归的直观解释 149
7.2.2 线性回归的数学
原理 150
7.2.3 如何在 R 语言中使用
线性回归 152
7.3 更多参考 161
7.4 小结 161
第 8 章 浅谈模型性能评估 163
8.1 定义模型性能 163
8.1.1 模型的拟合度与模型的
可解释性 164
8.1.2 使用模型进行预测 165
8.2 测量回归模型的性能 167
8.2.1 均方误差 167
8.2.2 R 平方 172
8.3 衡量分类问题模型的性能 177
8.3.1 混淆矩阵 178
8.3.2 准确度 180
8.3.3 灵敏度 182
8.3.4 特异性 182
8.3.5 如何选择合适的性能
统计指标 183
8.4 区分训练数据集与测试
数据集 184
8.5 更多参考 185
8.6 小结 185
第 9 章 不要放弃-继续学习包括多元
变量的回归 187
9.1 从简单线性回归到多元线性
回归 188
9.1.1 符号 188
9.1.2 假设 188
9.2 降维 191
9.2.1 逐步回归 192
9.2.2 主成分回归 196
9.3 使用 R 语言拟合多元线性
模型 197
9.3.1 模型拟合 197
9.3.2 变量的假设验证 200
9.3.3 残差假设验证 201
9.3.4 降维 202
9.4 更多参考 208
9.5 小结 208
第 10 章 关于分类模型问题的
不同展望 209
10.1 分类模型是什么?读者为什么
需要分类模型 209
10.1.1 线性回归应用于分类
变量的局限性 210
10.1.2 常用的分类算法和
模型 211
10.2 逻辑回归 213
10.2.1 逻辑回归的原理 213
10.2.2 逻辑回归的数学
原理 215
10.2.3 如何在 R 中应用逻辑
回归 218
10.2.4 逻辑回归结果的
可视化与解释 224
10.3 支持向量机(SVM) 228
10.3.1 支持向量机的
原支理 229
10.3.2 在原 R 语言中应用支持
向量机 234
10.3.3 理解支持向量机的
结果 235
10.4 更多参考 238
10.5 小结 238
第 11 章 *后冲刺-随机森林和
集成学习 239
11.1 随机森林 239
11.1.1 随机森林的构建模块-决策树
简介 240
11.1.2 随机森林的原理 243
11.1.3 在 R 语言中应用随机
森林 243
11.1.4 评估模型的结果 244
11.2 集成学习 249
11.2.1 基础的集成学习技术 250
11.2.2 采用 R 语言对数据进行
集成学习 250
11.3 在新数据上应用估计模型 256
11.3.1 将 predict.glm()函数用于
逻辑模型的预测 257
11.3.2 将 predict.randomforest()
用于随机森林的预测 258
11.3.3 将 predict.svm()函数应用
于支持向量机的预测 258
11.4 结构化更加良好的预测分析
方法 258
11.5 对预测数据应用集成学习中的
多数投票技术 259
11.6 更多参考 260
11.7 小结 260
第 12 章 寻找罪魁祸首-用 R 语言执行
文本数据挖掘 262
12.1 提取 PDF 文件中的数据 262
12.1.1 获取文档列表 263
12.1.2 通过 pdf_text()函数将
PDF 文件读取到 R 语言
环境 264
12.1.3 使用 for 循环迭代提取
文本 266
12.2 文本情感分析 269
12.3 开发词云 272
12.4 N 元组模型(n-grams)
分析 274
12.5 网络分析 275
12.5.1 从数据帧中获取边
列表 279
12.5.2 使用 ggraph 程序包可视化
网络 279
12.6 更多参考 283
12.7 小结 283
第 13 章 借助 R Markdown 与股东分享
公司现状 284
13.1 富有说服力的数据挖掘报告之
原则 284
13.1.1 清晰阐明目标 284
13.1.2 明确陈述假设 285
13.1.3 数据处理过程清晰
明了 285
13.1.4 数据一致性 286
13.1.5 提供数据谱系 286
13.2 编制 R MarkDown 报告 287
13.3 在 RStudio 中编制 R Markdown
报告文档 288
13.3.1 Markdown 简介 288
13.3.2 插入代码块 289
13.3.3 通过内联 R 语言代码,
在文本中重现代码的
输出 292
13.3.4 Shiny 简介以及 reactivity
框架 293
13.3.5 添加交互式数据族谱
模块 297
13.4 渲染和分享 R Markdown
报告 301
13.4.1 渲染 R Markdown
报告 301
13.4.2 分享 R Markdown
报告 301
13.5 更多参考 304
13.6 小结 304
第 14 章 结语 306
附录 A 处理日期、相对路径和函数 309
A.1 使用 R 语言处理日期 309
A.2 R 语言中的工作目录和相对
路径 309
A.3 条件声明 310
作者简介
[意]安德烈亚·奇里洛(Andrea Cirillo):目前就职于意大利联合圣保罗银行(Intesa Sanpaolo Banking Group),担任审计量化分析师一职。在此之前,他曾在德勤会计师事务所(Deloitte Touche Tohmatsu)从事财务和外部审计相关工作,以及在 FNM(一家意大利上市公司)从事内部审计相关工作。他目前的主要工作职责涉及信用风险管理模型的评估及改进—主要围绕巴塞尔协议Ⅲ这一领域。他与弗朗西丝卡(Francesca)结婚,并共同养育四个子女,他们的名字名别是:托马索(Tommaso)、吉安娜(Gianna)、扎卡里亚(Zaccaria)和菲利波(Filippo)。安德里亚(Andrea)曾编写并供稿一些有用的 R语言软件包,包括 updateR、ramazon 和 paletteR,此外,他会定期地分享一些关于 R 语言编程的深刻见解和教程。他的研究工作主要聚焦于通过建模定制算法以及开发交互式应用程序,实现 R 语言在风险管理和欺诈检测领域中的应用。
-
全图解零基础word excel ppt 应用教程
¥15.6¥48.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
硅谷之火-人与计算机的未来
¥12.7¥39.8 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥37.7¥65.0 -
情感计算
¥66.8¥89.0 -
LINUX企业运维实战(REDIS+ZABBIX+NGINX+PROMETHEUS+GRAFANA+LNMP)
¥48.3¥69.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
LINUX实战——从入门到精通
¥48.3¥69.0 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
数据驱动的工业人工智能:建模方法与应用
¥68.3¥99.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
UN NX 12.0多轴数控编程案例教程
¥24.3¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
Go 语言运维开发 : Kubernetes 项目实战
¥38.7¥79.0