- ISBN:9787302585701
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:404
- 出版时间:2021-11-01
- 条形码:9787302585701 ; 978-7-302-58570-1
本书特色
全书分导论、方法论和进阶应用三大部分,共10章,涵盖数据分析的数据预处理、关联规则分析方法、有标签的数据分析方法、无标签的数据分析方法、数据可视化技术、深度学习技术、Hadoop大数据分布式应用计算平台等基础知识。 本书内容以大数据分析流程为导引,结合一系列案例和学生竞赛作品,将数据分析技术的应用过程,由浅入深地把理论融入实践,激发读者浓厚的学习热情,加深读者对知识的认识、理解和掌握。 全书所有案例均采用Python语言编写,不仅包括简单程序的代码,也包括较大应用程序代码,所有代码都全部经过验证,适合初学者学习和实现。案例代码可以登录清华大学出版社网站(http://www.tup.com.cn)下载。 可作为高等院校以及高职高专学校的计算机科学与技术、数据科学与技术、人工智能、智能科学与技术等相关信息类专业的教材,也可作为学习数据分析应用技术的参考书使用。 本书是国家级一流本科线上课程《大数据分析与处理》在线微视频开放课程的配套教材,也是重庆市一流本科线上线下混合式课程《数据挖掘基础》的配套教材。
内容简介
本书围绕大数据背景下的数据挖掘及应用技术,从大数据挖掘的基本概念入手,由浅入深、循序渐进地介绍大数据挖掘分析过程中的数据认知与预处理、数据可视化技术、数据挖掘的基本方法、Hadoop大数据分布式处理生态系统及分析应用等内容。其中数据挖掘的基本方法不仅包括数据关联分析、数据分类分析及数据聚类分析,还包括深度学习等重要的数据挖掘研究和发展主题。作者对每一章的内容都尽量从不同的角度进行深入剖析,案例均采用Python语言编程。 本书既可以面向计算机科学与技术、数据科学与技术、人工智能、智能科学与技术等信息类专业的本科生和研究生,也可以面向广大的IT从业人员。全书不仅提供了全部案例的Python源代码,还提供了丰富的习题和参考文献,对读者掌握大数据挖掘及应用领域的基本知识和进一步研究都具有参考价值。
目录
目录
第1章大数据挖掘及应用概论1
1.1大数据挖掘及应用的背景1
1.1.1从“小”到“大”的数据分析处理1
1.1.2大数据的智能分析与挖掘2
1.1.3大数据4
1.1.4云计算5
1.2大数据挖掘的发展及挑战7
1.2.1大数据的发展催生三元空间世界7
1.2.2大数据挖掘分析处理面临的挑战9
1.3数据挖掘概述11
1.3.1数据挖掘的概念11
1.3.2数据挖掘的功能11
1.3.3数据挖掘运用的技术13
1.3.4大数据挖掘与传统数据挖掘的关系13
1.3.5数据分析过程的5个原则14
1.4大数据挖掘分析处理框架15
1.4.1大数据挖掘计算平台框架16
1.4.2大数据挖掘处理流程20
1.5小结22
1.6习题23
1.7参考文献24
第2章数据认知与预处理25
2.1数据挖掘的定义和流程26
2.1.1如何理解和描述数据挖掘的问题26
2.1.2数据获取与准备27
2.1.3数据质量评估28
2.2数据类型28
2.2.1属性的定义29
2.2.2标称属性29
2.2.3二元属性30
2.2.4序值属性30
2.2.5数值属性30
2.3数据的统计描述方法30
2.3.1数据的中心趋势度量30
2.3.2数据的离散趋势度量32
2.4数据对象关系的计算方法35
2.4.1对象相似性计算方法35
2.4.2数据相关性计算方法42
2.5数据准备44
2.5.1数据清洗与集成44
2.5.2数据归约技术48
2.5.3数据转换56
2.6数据统计分析常用工具介绍59
2.6.1Pandas统计分析工具59
2.6.2SPSS统计分析工具59
2.6.3SAS统计分析工具61
2.6.4R语言统计分析工具62
2.7Pandas案例分析65
2.7.1数据准备65
2.7.2数据录入与编辑65
2.7.3数据清洗与转换66
2.7.4数据方差分析68
2.7.5数据相关性分析69
2.7.6数据间距离分析71
2.8小结71
2.9习题72
2.10参考文献73
第3章数据可视化技术74
3.1可视化简介74
3.2高维数据可视化75
3.2.1降维方法76
3.2.2非降维方法78
3.3网络数据可视化84
3.3.1结点链接法84
3.3.2相邻矩阵布局89
3.3.3混合布局91
3.4可视化案例分析92
3.4.1案例一: China VIS 2015 竞赛题92
3.4.2案例二: VAST Challenge 2016竞赛题99
3.5小结112
3.6习题113
3.7参考文献113
第4章数据关联分析方法114
4.1问题引入114
4.2基本概念116
4.2.1频繁项集和关联规则117
4.2.2闭频繁项集和极大频繁项集119
4.2.3稀有模式和负模式120
4.3APriori算法121
4.3.1APriori算法的核心思想122
4.3.2APriori算法描述123
4.3.3改进的APriori算法124
4.4FPGrowth算法130
4.4.1FPGrowth算法的核心思想130
4.4.2FPGrowth算法描述131
4.5关联规则有效性的评估方法134
4.5.1关联规则兴趣度评估135
4.5.2关联规则相关度评估135
4.5.3其他的评估度量方法136
4.6多维关联规则的挖掘139
4.7多层关联规则挖掘142
4.8案例分析(Python)146
4.8.1APriori算法146
4.8.2FPGrowth算法149
4.9小结154
4.10习题155
4.11参考文献156
第5章数据分类分析方法158
5.1基本概念和术语158
5.1.1什么是分类158
5.1.2解决分类问题的一般方法160
5.2决策树算法161
5.2.1决策树归纳161
5.2.2如何建立决策树162
5.2.3表示属性测试条件的方法165
5.2.4选择*佳划分的度量166
5.2.5决策树归纳算法170
5.2.6树剪枝171
5.2.7决策树归纳的特点173
5.3贝叶斯分类算法175
5.3.1贝叶斯定理176
5.3.2朴素贝叶斯分类177
5.3.3贝叶斯信念网络179
5.4支持向量机算法180
5.4.1数据线性可分的情况181
5.4.2数据非线性可分的情况184
5.5粗糙集分类算法185
5.6分类器评估方法186
5.6.1评估分类器性能的度量187
5.6.2保持方法和随机二次抽样190
5.6.3交叉验证190
5.6.4自助法191
5.6.5使用统计显著性检验选择模型191
5.7组合分类器技术193
5.7.1组合分类方法简介193
5.7.2装袋193
5.7.3提升和Adaboost194
5.7.4随机森林195
5.7.5提高类不平衡数据的分类准确率196
5.8惰性学习法(k*近邻分类)197
5.9案例分析198
5.9.1SVM案例分析198
5.9.2决策树案例分析206
5.10小结213
5.11习题213
5.12参考文献215
第6章数据聚类分析方法218
6.1基本概念和术语218
6.1.1什么是聚类分析219
6.1.2对聚类的基本要求219
6.1.3不同的聚类方法220
6.2划分方法222
6.2.1kmeans算法222
6.2.2k中心点算法226
6.3层次方法228
6.3.1凝聚的与分裂的层次聚类228
6.3.2算法方法的距离度量230
6.4基于密度的方法 233
6.4.1传统的密度: 基于中心的方法234
6.4.2DBSCAN算法236
6.5概率模型的聚类方法237
6.5.1模糊聚类237
6.5.2基于概率模型的聚类239
6.5.3期望*大化算法241
6.6聚类评估243
6.6.1估计聚类趋势243
6.6.2确定正确的簇个数245
6.6.3测定聚类质量246
6.7案例分析248
6.7.1使用kmeans算法进行西瓜品类分析248
6.7.2使用层次聚类算法进行股票分析252
6.8小结259
6.9习题259
6.10参考文献260
第7章深度学习262
7.1引言262
7.2前馈神经网络(BP网络)263
7.3基本深度神经网络比较267
7.4深信网268
7.4.1玻尔兹曼机269
7.4.2受限玻尔兹曼机269
7.4.3深信网271
7.5深度玻尔兹曼机275
7.6栈式自动编码器277
7.6.1自动编码器277
7.6.2栈式自动编码器278
7.7卷积神经网络280
7.7.1卷积281
7.7.2池化282
7.7.3CNN训练过程283
7.7.4CNN网络构造的案例分析287
7.8深度学习开源框架288
7.8.1开源框架简介288
7.8.2开源案例分析289
7.9深度学习应用技巧294
7.10小结295
7.11习题296
7.12参考文献296
第8章Hadoop大数据分布式处理生态系统299
8.1Hadoop集群基础299
8.1.1Hadoop安装300
8.1.2Hadoop配置301
8.2HDFS基础操作309
8.3MapReduce并行计算框架316
8.3.1MapReduce程序实例: WordCount317
8.3.2Hadoop Streaming320
8.4基于Storm的分布式实时计算321
8.4.1Storm简介321
8.4.2Storm基本概念321
8.4.3Storm编程325
8.5基于Spark Streaming的分布式实时计算333
8.5.1Spark内存计算框架334
8.5.2Spark Streaming简介335
8.5.3Spark Streaming 编程337
8.6小结341
8.7习题342
8.8参考文献342
第9章Hadoop大数据分析应用344
9.1典型数据挖掘算法并行化案例344
9.1.1MR kmeans算法分析344
9.1.2Mahout聚类算法案例347
9.1.3Spark MLlib聚类算法案例352
9.2大数据分析应用案例354
9.2.1搜索引擎日志数据分析354
9.2.2出租车轨迹数据分析357
9.2.3新闻组数据分析359
9.3小结366
9.4习题366
9.5参考文献366
第10章大数据挖掘及应用展望368
10.1大数据挖掘的新数据368
10.2大数据挖掘的新方法370
10.2.1深度学习371
10.2.2知识图谱373
10.2.3迁移学习374
10.2.4强化学习376
10.2.5社会计算377
10.2.6特异群组挖掘377
10.3互联网时代的大数据挖掘应用378
10.4大数据时代面临的挑战380
10.4.1用户隐私和安全问题380
10.4.2数据分析算法的可解释性问题382
10.4.3人工智能的伦理问题383
10.5小结384
10.6参考文献385
作者简介
王国胤,主编,主讲本科生及研究生课程多门。出版专著4部,主编教材1部。发表计算机教育教学论文7篇、科学研究论文300多篇。主持1项重庆市重大教改项目、1项国家自然科学基金重点项目、1项科技部重点研发计划和多项国家自然科学家基金面上项目
-
全图解零基础word excel ppt 应用教程
¥15.6¥48.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
零信任网络:在不可信网络中构建安全系统
¥37.2¥59.0 -
硅谷之火-人与计算机的未来
¥12.7¥39.8 -
情感计算
¥66.8¥89.0 -
大模型RAG实战 RAG原理、应用与系统构建
¥69.3¥99.0 -
LINUX企业运维实战(REDIS+ZABBIX+NGINX+PROMETHEUS+GRAFANA+LNMP)
¥52.4¥69.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥68.2¥89.8 -
LINUX实战——从入门到精通
¥49.0¥69.0 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
快速部署大模型:LLM策略与实践(基于ChatGPT等大语言模型)
¥56.9¥79.0 -
数据驱动的工业人工智能:建模方法与应用
¥68.3¥99.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥81.8¥109.0 -
UG NX 12.0数控编程
¥24.8¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
UN NX 12.0多轴数控编程案例教程
¥24.3¥38.0 -
做好课题申报:AI辅助申请书写作
¥48.9¥69.8 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0