适合普及大数据的参考资料
这本书的内容比较全面,适合大众阅读,技术含量一般,不适合特别专业的人员阅读,一般读者可以普及大数据知识是相当不错的一本参考书
- ISBN:9787502467807
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:278
- 出版时间:2014-12-01
- 条形码:9787502467807 ; 978-7-5024-6780-7
本书特色
本书针对数据的海量性、复杂性、高维性、模糊性和不完整性,对数据挖掘技术中的聚类分析和关联规则分析进行了系统的研究。设计与实现了基于密度和自适应密度可达聚类算法、基于簇特征的动态增量聚类算法、并行聚类算法、基于密度加权的模糊聚类算法、高唯复杂数据聚类算法、基于数据场的聚类算法、基于距离的量化关联规则和基于数据场的量化关联规则算法,给出了在矿产资源评价、遥感图像分类、矿业经济分析中的应用例证。全书共分11章,主要内容包括:绪论,基于密度和密度可达聚类分析,基于簇特征的动态增量聚类分析,并行聚类分析,基于密度加权的模糊聚类分析,高唯复杂数据聚类分析,基于数据场的聚类分析,基于距离的量化关联规则,基于数据场的量化关联规则,数据挖掘结果可视化和数据挖掘算法应用。
内容简介
《大数据挖掘技术与应用》针对大数据的海量性、高维性、异构性、动态性、多样性、多源性、多尺度性、时空性和模糊性等特征,对数据挖掘技术中的聚类分析和关联规则分析进行了系统的研究;研究与开发了基于密度和自适应密度可达聚类算法、动态增量聚类算法、并行聚类算法、高维多类型数据聚类算法、基于密度加权的模糊聚类算法、基于数据场的聚类和量化关联规则算法、基于距离的量化关联规则分析、基于云计算的大数据聚类算法,以及挖掘结果的可视化表达;给出了地球化学数据挖掘、基于数据挖掘的中国资源与区域经济发展关系的分析应用实例。 《大数据挖掘技术与应用》可供从事数据挖掘技术研究、应用和软件开发人员以及学习数据挖掘技术的本科生和研究生参考。
目录
1.1 大数据 1
1.1.1 大数据概念1
1.1.2 大数据特征4
1.2 云计算与大数据挖掘 5
1.2.1 云计算5
1.2.2 大数据挖掘6
1.3 传统数据挖掘 6
1.3.1 数据源与挖掘任务7
1.3.2 数据挖掘方法7
1.3.3 数据挖掘面临问题9
参考文献 10
2 基于属性加权和密度聚类分析11
2.1 聚类分析技术 11
2.1.1 数据基础11
2.1.2 聚类分析方法16
2.1.3 簇的类型16
2.2 聚类算法 17
2.2.1 聚类算法分类17
2.2.2 聚类算法特性19
2.2.3 选用聚类算法参考因素20
2.2.4 聚类算法面临的挑战21
2.3 聚类算法改进 23
2.3.1 聚类算法分析23
2.3.2 数据对象属性加权25
2.3.3 基于属性加权k-means算法27
2.3.4 实例验证算法28
2.4 基于密度与对象方向聚类算法 29
2.4.1 算法的提出29
2.4.2 denclue算法30
2.4.3 算法设计31
2.5 cabwad算法实现 36
2.5.1 数据结构建立36
2.5.2 数据结构上聚类38
2.5.3 时间和空间复杂度40
2.6 实验分析 40
2.6.1 准确度分析41
2.6.2 可扩展性分析43
参考文献 44
3 基于密度与密度可达聚类分析46
3.1 cabwad算法分析 46
3.1.1 算法过程分析46
3.1.2 两个输入参数的分析47
3.2 算法设计与分析 50
3.2.1 相关定义50
3.2.2 cadd算法设计53
3.2.3 算法执行过程分析53
3.3 实验分析 55
3.3.1 不同分布形态的簇(缠绕簇)55
3.3.2 不同密度的簇56
3.3.3 分布在不同密度噪声中的变密度簇57
3.3.4 复杂形态簇58
3.3.5 算法复杂度分析59
参考文献 60
4 动态增量聚类分析62
4.1 算法提出 62
4.1.1 增量聚类算法62
4.1.2 cadd算法分析64
4.1.3 抽样技术66
4.2 基于密度可达的动态增量聚类算法 67
4.2.1 算法设计67
4.2.2 算法实现69
4.2.3 算法复杂度分析69
4.3 基于子簇特征的增量聚类算法 70
4.3.1 相关定义70
4.3.2 算法设计72
4.3.3 算法实现72
4.4 实验分析 73
4.4.1 仿真动态增量聚类73
4.4.2 算法对比分析77
参考文献 78
5 并行聚类分析80
5.1 并行计算技术 80
5.1.1 并行计算定义81
5.1.2 并行计算分类81
5.1.3 并行计算模型和体系结构82
5.1.4 并行数据挖掘85
5.1.5 并行聚类分析86
5.2 并行聚类算法设计与实现 88
5.2.1 算法总体流程88
5.2.2 数据并行聚类算法89
5.2.3 数据并行和任务并行聚类算法90
5.3 实验分析 92
5.3.1 算法有效性分析92
5.3.2 算法加速比分析92
5.3.3 算法时间复杂度分析93
5.3.4 pcadd与cadd算法执行时间对比93
参考文献 94
6 高维多类型属性数据对象聚类分析95
6.1 高维多类型属性数据对象 95
6.1.1 高维数据处理95
6.1.2 多类型属性处理96
6.1.3 高维数据对象聚类96
6.1.4 多类型属性数据对象聚类98
6.2 维度对聚类算法精度影响 99
6.2.1 高维数据聚类99
6.2.2 数据集与相关定义99
6.2.3 实验结果及分析100
6.3 多类型属性数据聚类分析 103
6.3.1 处理多类型数据方法103
6.3.2 聚类效果度量标准103
6.3.3 实验结果及分析104
6.4 基于属性加权的高维数据聚类 108
6.4.1 属性加权cadd算法108
6.4.2 实验结果及分析109
参考文献 113
7 基于密度加权模糊聚类分析115
7.1 模糊聚类分析 115
7.1.1 模糊聚类产生115
7.1.2 模糊聚类分类116
7.1.3 模糊聚类算法优化117
7.2 模糊聚类算法 118
7.2.1 模糊簇118
7.2.2 hc-means聚类算法118
7.2.3 fc-means聚类算法119
7.2.4 hcm和fcm的关系120
7.2.5 fcm算法存在问题分析121
7.3 基于密度函数加权的fcm 122
7.3.1 聚类算法提出122
7.3.2 聚类算法设计123
7.3.3 实验结果及分析124
参考文献 132
8 基于距离量化关联规则挖掘135
8.1 关联规则挖掘 135
8.1.1 关联规则相关概念135
8.1.2 关联规则度量137
8.1.3 关联规则分类138
8.1.4 关联规则挖掘模型与步骤139
8.2 量化关联规则 140
8.2.1 量化关联规则提出140
8.2.2 量化关联规则定义143
8.2.3 算法描述145
8.2.4 算法分析146
8.3 基于距离算法设计与实现 148
8.3.1 算法设计148
8.3.2 数据预处理149
8.3.3 基于距离量化规则150
8.3.4 簇间关联度的度量150
8.3.5 关联度参数 d 0 限定151
8.3.6 规则的生成153
8.4 算法实验分析 153
8.4.1 系统交互界面153
8.4.2 地球化学数据分析154
8.4.3 临床医学调查数据156
参考文献 156
9 基于数据场的数据挖掘技术158
9.1 数据场 158
9.1.1 数据场的概念158
9.1.2 数据场主要特征159
9.1.3 数据场表达159
9.2 数据场聚类算法 161
9.2.1 数据场聚类算法设计161
9.2.2 测试数据集产生162
9.2.3 位场聚类实验162
9.2.4 辐射场聚类实验163
9.2.5 参数对数据场聚类效果影响164
9.3 聚类效果实验分析 166
9.3.1 模拟数据分析166
9.3.2 uci数据集实验168
9.4 基于数据场量化关联规则挖掘 172
9.4.1 常用量化关联规则挖掘方法172
9.4.2 算法相关定义173
9.4.3 算法设计与实现175
9.5 关联规则挖掘实验与分析 176
9.5.1 身体脂肪bodyfat数据集176
9.5.2 临床医学数据实验测试178
参考文献 179
10 基于mapreduce聚类分析181
10.1 hadoop开源云计算平台 181
10.1.1 mapreduce181
10.1.2 hdfs文件系统183
10.1.3 基于mapreduce聚类算法184
10.2 基于mapreduce k-means算法改进 186
10.2.1 距离三角不等式聚类算法186
10.2.2 距离三角不等式算法设计187
10.2.3 聚类算法实验结果分析189
10.3 基于mapreduce cadd聚类算法 191
10.3.1 算法设计191
10.3.2 mapreduce聚类模型192
10.3.3 聚类算法实验结果分析193
参考文献 195
11 数据挖掘结果可视化表达196
11.1 可视化数据挖掘 196
11.1.1 数据可视化197
11.1.2 数据挖掘过程可视化198
11.1.3 数据挖掘结果可视化198
11.1.4 交互式可视化数据挖掘199
11.2 数据可视化方法及分类 200
11.2.1 基于几何的技术200
11.2.2 面向像素的技术202
11.2.3 基于图标的技术202
11.2.4 基于层次的技术203
11.3 可视化数据挖掘系统设计与实现 204
11.3.1 可视化挖掘系统204
11.3.2 聚类结果可视化205
11.3.3 关联规则结果可视化208
参考文献 212
12 地球化学数据挖掘(ⅰ)214
12.1 地球化学数据处理方法 214
12.1.1 传统处理方法214
12.1.2 数据挖掘方法215
12.2 地球化学数据聚类分析 217
12.2.1 地球化学数据来源217
12.2.2 区域地质概况217
12.2.3 聚类分析研究221
12.2.4 靶区地球化学特征222
12.3 区域矿产资源预测 225
12.3.1 地球化学异常靶区225
12.3.2 元素组合特征分析226
12.3.3 区域矿产资源预测232
参考文献 234
13 地球化学数据挖掘(ⅱ)236
13.1 区域地质形貌 236
13.1.1 自然地理环境236
13.1.2 区域地质概况236
13.2 地球化学元素聚类分析 239
13.2.1 数据整理和建立数据库239
13.2.2 地球化学数据聚类分析239
13.2.3 聚类结果mapgis成图241
13.3 地球化学元素组合特征分析 243
13.3.1 靶区1~4元素组合特征243
13.3.2 靶区5元素组合特征243
13.3.3 矿产资源预测244
13.4 地球化学元素模糊c-means聚类 247
13.4.1 某金矿区模糊c-means聚类分析247
13.4.2 某锡矿区模糊c-means聚类分析248
13.4.3 某采样地区模糊c-means聚类分析249
参考文献 250
14 资源与经济发展关系分析252
14.1 资源与经济 252
14.1.1 矿产资源开发252
14.1.2 传统研究方法253
14.2 数据源与数据预处理 256
14.2.1 数据的选取256
14.2.2 数据标准化257
14.3 聚类分析 258
14.3.1 资源储量属性258
14.3.2 环境指标属性260
14.3.3 经济指标属性262
14.3.4 技术指标属性275
14.3.5 结论与建议278
参考文献 280
作者简介
孟海东(1958-),男,博士,教授,博士生导师。主要从事数据挖掘、数字矿山和计算机应用领域的教学和科研工作。内蒙古科技大学矿业工程学院教授委员会委员、学术副院长,矿业系统工程创新团队学术带头人、矿业系统工程研究室主任。主持或承担国家级和省部级项目10余项。发表论文60余篇,其中SCI、EI收录20余篇。
-
底层逻辑:看清这个世界的底牌
¥29.7¥69.0 -
文案高手
¥12.6¥36.0 -
广告, 艰难的说服--广告对美国社会影响的不确定性
¥7.3¥27.0 -
富爸爸穷爸爸
¥32.0¥89.0 -
故事力法则
¥16.8¥48.0 -
图解博弈论
¥13.3¥38.0 -
NO LOGO-颠覆品牌全球统治
¥9.5¥45.0 -
学会提问
¥46.2¥69.0 -
央企真相
¥18.6¥58.0 -
冯唐成事心法
¥42.9¥78.0 -
麦肯锡高效工作法(八品)
¥13.5¥52.0 -
(平装)哈佛管理课
¥14.4¥45.0 -
掌控习惯:如何养成好习惯并戒除坏习惯
¥36.5¥58.0 -
畅销的原理:为什么好观念、好产品会一炮而红?(八品)
¥15.8¥45.0 -
投资人和你想的不一样
¥20.8¥65.0 -
狼道
¥9.1¥35.0 -
可复制的领导力
¥24.0¥49.0 -
中国的银行
¥9.9¥17.0 -
麦肯锡底层领导力/(英)克劳迪奥·费泽,(英)迈克尔·伦尼,(英)尼古莱·陈·尼尔森
¥21.8¥68.0 -
麦肯锡图表工作法
¥24.4¥49.8