×
计算机科学丛书数据挖掘(原理与实践进阶篇)/计算机科学丛书

计算机科学丛书数据挖掘(原理与实践进阶篇)/计算机科学丛书

1星价 ¥62.4 (7.9折)
2星价¥62.4 定价¥79.0
暂无评论
图文详情
  • ISBN:9787111670308
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:206
  • 出版时间:2021-01-01
  • 条形码:9787111670308 ; 978-7-111-67030-8

本书特色

适读人群 :对于学生、业界从业者以及科研人员,本书既可以数据挖掘高级课程的教材,也可以作为从事大数据和数据挖掘工作的参考书。本书中文版分为基础篇和进阶篇,深入探讨了数据挖掘的各个方面,从基础知识到复杂的数据类型及其应用,涉及数据挖掘的各种问题领域。全书既有基本方法,也有进阶内容,彼此融为一体,这使得本书既可以作为数据挖掘领域的工具书,也可以作为数据科学、人工智能、计算机等相关专业本科及研究生教材。 1、大数据和人工智能时代的数据挖掘教材,将数据挖掘归纳成四个基本问题:聚类、分类、关联模式挖掘和异常分析,不仅详解数据挖掘的基础知识,而且还介绍高级数据类型,结合复杂多样的实际数据环境,探讨数据挖掘的应用场景和使用方法。 2、作译者均为数据挖掘领域资深学者。作者是IBM T. J. Watson研究中心杰出研究员阿加沃尔博士,他擅长将计算机科学问题提炼成数学问题,而且又能用计算机科学方法解决实际问题,本书是他的代表作之一。翻译工作由国内四位数据挖掘领域的翘楚,复旦大学王晓阳教授、清华大学王建勇教授、加拿大约克大学禹晓辉教授、中科院计算所陈世敏研究员历时5年时间完成,字斟句酌,精益求精。 3、全书注重原理和方法,既有基本方法,也有进阶内容,帮助读者在数据挖掘及人工智能应用方面打下良好基础。

内容简介

全书理论联系实际,全面讲述数据挖据理论、技术及应用的教材。研讨了数据挖掘的方方面面,从基础理论到复杂数据类型及其应用。不仅讨论传统的数据挖掘问题,而且介绍了不错数据类型,例如文本、时间序列、离散序列、空间数据、图数据和社会网络。本书由基础篇和进阶篇组成。基础篇对应原书的~11章,进阶篇对应原书的2~20章。

目录

目 录

Data Mining: The Textbook

出版者的话

译者序

前言

第14章 时间序列数据挖掘1

14.1 引言1

14.2 时间序列的前期准备和相似性度量2

14.2.1 缺失值处理2

14.2.2 噪声去除3

14.2.3 归一化4

14.2.4 数据转换和约简5

14.2.5 时间序列相似性度量6

14.3 时间序列预测7

14.3.1 自回归模型9

14.3.2 自回归移动平均模型10

14.3.3 带有隐含变量的多元预测11

14.4 时间序列模体13

14.4.1 基于距离的模体14

14.4.2 转换为序列模式挖掘15

14.4.3 周期模式16

14.5 时间序列聚类16

14.5.1 共同演化序列的在线聚类17

14.5.2 基于形状的聚类19

14.6 时间序列异常检测20

14.6.1 点异常21

14.6.2 形状异常22

14.7 时间序列分类23

14.7.1 有监督事件检测23

14.7.2 全时序分类26

14.8 小结27

14.9 文献注释27

14.10 练习题28

第15章 离散序列挖掘29

15.1 引言29

15.2 序列模式挖掘30

15.2.1 频繁模式到频繁序列32

15.2.2 约束的序列模式挖掘34

15.3 序列聚类35

15.3.1 基于距离的方法36

15.3.2 基于图的方法36

15.3.3 基于序列的聚类37

15.3.4 概率聚类37

15.4 序列中的异常检测40

15.4.1 位置异常40

15.4.2 组合异常44

15.5 隐马尔可夫模型45

15.5.1 HMM的正式定义47

15.5.2 评估:计算观察序列的拟合概率48

15.5.3 说明:确定观察序列的*优状态序列49

15.5.4 训练:鲍姆韦尔奇算法49

15.5.5 应用50

15.6 序列分类51

15.6.1 *近邻分类器51

15.6.2 基于图的方法51

15.6.3 基于规则的方法52

15.6.4 内核SVM52

15.6.5 概率方法:隐马尔可夫模型54

15.7 小结54

15.8 文献注释55

15.9 练习题55

第16章 空间数据挖掘57

16.1 引言57

16.2 上下文空间属性的挖掘58

16.2.1 形状到时间序列的转换58

16.2.2 使用小波分析的空间数据到多维数据的转换61

16.2.3 共址空间模式62

16.2.4 形状聚类63

16.2.5 异常检测64

16.2.6 形状分类66

16.3 轨迹挖掘67

16.3.1 轨迹数据和多变量时间序列的等价性67

16.3.2 将轨迹转换为多维数据68

16.3.3 轨迹模式挖掘68

16.3.4 轨迹聚类70

16.3.5 轨迹异常检测72

16.3.6 轨迹分类73

16.4 小结74

16.5 文献注释74

16.6 练习题75

第17章 图数据挖掘76

17.1 引言76

17.2 图匹配和距离计算77

17.2.1 同构子图问题的Ullman算法79

17.2.2 *大公共子图问题82

17.2.3 用于距离计算的图匹配方法82

17.3 基于转换的距离计算86

17.3.1 基于频繁子结构的转换和距离计算86

17.3.2 拓扑描述量87

17.3.3 基于内核的转换和计算89

17.4 图数据的频繁子结构挖掘90

17.4.1 基于节点的连接92

17.4.2 基于边的连接92

17.4.3 频繁模式挖掘到图模式挖掘93

17.5 图聚类93

17.5.1 基于距离的方法94

17.5.2 基于频繁子结构的方法94

17.6 图分类 96

17.6.1 基于距离的方法96

17.6.2 基于频繁子结构的方法97

17.6.3 内核SVM98

17.7 小结98

17.8 文献注释99

17.9 练习题99

第18章 挖掘Web数据101

18.1 引言101

18.2 Web爬取和资源发现102

18.2.1 基本爬虫算法102

18.2.2 偏好爬虫103

18.2.3 多线程104

18.2.4 爬虫陷阱应对方法104

18.2.5 检测近似重复的覆盖104

18.3 搜索引擎索引和查询处理105

18.4 排名算法107

18.4.1 PageRank107

18.4.2 HITS111

18.5 推荐系统112

18.5.1 基于内容的推荐114

18.5.2 协同过滤基于邻域的方法115

18.5.3 基于图的方法116

18.5.4 聚类方法117

18.5.5 潜在因素模型118

18.6 Web使用记录的挖掘119

18.6.1 数据预处理120

18.6.2 应用120

18.7 小结121

18.8 文献注释121

18.9 练习题122

第19章 社交网络分析123

19.1 引言123

19.2 社交网络:预备知识与特性124

19.2.1 同质性124

19.2.2 三元闭合和聚类系数124

19.2.3 网络构成的动态性125

19.2.4 符合幂定律的度分布126

19.2.5 中心度和声望的度量126

19.3 社区发现129

19.3.1 Kernighan-Lin算法131

19.3.2 Girvan-Newman算法132

19.3.3 多层次的图划分:METIS135

19.3.4 谱聚类137

19.4 协同分类140

19.4.1 迭代分类算法141

19.4.2 随机游走方式的标签传播142

19.4.3 有监督的谱方法145

19.5 链接预测147

19.5.1 基于邻域的度量148

19.5.2 Katz度量149

19.5.3 基于随机游走的度量150

19.5.4 链接预测作为分类问题150

19.5.5 链接预测作为缺失值估计问题150

19.5.6 讨论151

19.6 社交影响分析151

19.6.1 线性阈值模型152

19.6.2 独立级联模型153

19.6.3 影响函数求值153

19.7 小结153

19.8 文献注释154

19.9 练习题155

第20章 隐私保护数据挖掘157

20.1 引言157

20.2 数据采集期间的隐私保护158

20.2.1 重建聚合分布158

20.2.2 利用聚合分布来进行数据挖掘160

20.3 数据发布期间的隐私保护160

20.3.1 k匿名模型162

20.3.2 ?多样性模型172

20.3.3 t相近性模型173

20.3.4 维度灾难175

20.4 输出隐私保护176

20.5 分布式隐私保护177

20.6 小结178

20.7 文献注释178

20.8 练习题179

参考文献181


展开全部

作者简介

作者简介: 查鲁C. 阿加沃尔(Charu C. Aggarwal)是IBM T. J. Watson研究中心的杰出研究人员,于1996年获麻省理工学院博士学位。他对数据挖掘领域有着广泛的研究,在国际会议和期刊上发表了250多篇论文,拥有80多项专利。他曾三次被评为IBM的“杰出发明人”,并曾获得IBM公司奖、IBM杰出创新奖和两项IBM杰出技术成就奖。他因为提出基于冷凝的数据挖掘中的隐私保护技术而获得EDBT2014的时间检验奖。他还获得了IEEE ICDM研究贡献奖(2015),这是数据挖掘领域对具有突出贡献的研究的两个*高奖项之一。.他曾多次担任ACM/IEEE知名国际学术会议的主席或程序委员会主席,并担任大数据相关多个知名期刊的主编或编委。由于在知识发现和数据挖掘算法上的贡献,他入选SIAM、ACM和IEEE的会士。 译者简介: 王晓阳 复旦大学特聘教授、博士生导师,中国计算机学会会士,ACM会员,IEEE高级会员。主要研究兴趣为大数据分析、数据安全等。于复旦大学获得计算机科学学士、硕士学位,于美国南加州大学获得计算机科学博士学位。曾在美国乔治梅森大学、美国佛蒙特大学、美国国家科学基金会任职。2011年至今在复旦大学任职。主持多项美国国家科学基金项目、中国国家重点研发计划项目、自然科学基金重点项目、上海市重大科研项目等,并发表过百余篇高质量学术论文,现任Springer DSE期刊主编,IEEE ICDE会议系列、IEEE BigComp会议系列指导委员会委员,曾任CCF上海分部主席,IEEE ICDE 2012及ACM CIKM 2014总主席,WAIM会议系列指导委员会主席。曾获得美国国家科学基金CAREER Award。 王建勇 清华大学计算机系教授,国际电器与电子工程师协会会士(IEEE Fellow),中国人工智能学会会士(CAAI Fellow),江苏省大数据安全与智能处理重点实验室首届学术委员会副主任。主要研究领域为数据挖掘及知识发现。迄今发表论文100余篇(其中单篇*高引用2000余次)。曾担任IEEE ICDM’19、WISE’15、BioMedCom’14、WAIM’13、ADMA’11、NDBC’10等会议的程序委员会联合主席以及IEEE TKDE、ACM TKDD和《软件学报》等期刊的编委。入选2007年度教育部“新世纪优秀人才”支持计划和2009年度日本大川研究基金资助计划。获得WWW’08的Best Posters Award、2009年度和2010年度HP实验室创新研究奖以及教育部2013年度自然科学奖二等奖。 禹晓辉 南京大学学士、香港中文大学硕士、加拿大多伦多大学博士,加拿大约克大学副教授,山东大学兼职教授、博士生导师,中国计算机学会大数据专委会委员、数据库专委会委员。研究工作主要集中在大数据管理和分析领域,研究方向涵盖时空大数据处理与挖掘、面向人工智能的数据管理、社交媒体挖掘等。主持加拿大自然科学与工程理事会基金、中国国家自然科学基金等多项国家和工业界资助的科研项目。在IEEE Trans. on Knowl. & Data Eng.及SIGMOD、VLDB、ICDE等国内外期刊和会议上发表高质量论文近100篇,是3项美国专利的发明人。曾任WAIM2015、CloudDM2015等知名国际会议的程序委员会主席,是国际期刊Information Systems(Elsevier)的编委、加拿大自然科学与工程理事会NSERC特邀评审专家。 陈世敏 中科院计算所研究员,中国科学院大学岗位教师,分别于1997年和1999年获得清华大学计算机系学士和硕士学位,于2005年在美国卡内基梅隆大学获得计算机科学博士学位。主要研究方向为数据库系统和大数据系统。曾在SIGMOD、ISCA、VLDB、ASPLOS、ICDE、CIDR等顶级国际会议和ACM TODS、IEEE TKDE等顶级国际期刊发表过论文,并获得ICDE’04 Best Paper、SIGMOD’01 Runner-up Best Paper和2008年体系结构国际会议年度顶级论文奖(Top Picks’08)。曾担任PVLDB 2017、ICDE 2018、ICDCS 2016、CIKM 2014等会议的PC Area Chair,长期担任大数据新硬件技术的主要Workshop HardBD的Co-Chair。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航