×
暂无评论
图文详情
  • ISBN:9787111648055
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:456
  • 出版时间:2020-05-01
  • 条形码:9787111648055 ; 978-7-111-64805-5

本书特色

《文本机器学习》系统性地介绍了多个经典的和前沿的机器学习技术及其在文本域中的应用。首先,详细介绍了面向文本数据的预处理技术和经典的机器学习技术(如矩阵分解与主题建模、聚类与分类/回归等),并深入探讨了模型的原理和内在联系以及相应的性能评估;其次,详细介绍了结合异构数据的文本学习技术(如知识共享与迁移学习等),以及面向信息检索与排序的索引和评分等技术;末尾,详细介绍了一些文本应用相关的重要技术,包括序列建模与深度学习、文本摘要与信息提取、意见挖掘与情感分析、文本分割与事件检测等。本书从技术原理到实际应用,综合梳理了文本机器学习的多个技术,深入分析了模型的优缺点和内在联系,并在每章结束时提供了详细的参考资料、软件资源和习题。
《文本机器学习》不仅可以作为工具书供具有相关背景的专业人士使用,也可以作为教材帮助具有线性代数和概率论基础的初学者入门。

内容简介

《文本机器学习》系统性地介绍了多个经典的和前沿的机器学习技术及其在文本域中的应用。首先,详细介绍了面向文本数据的预处理技术和经典的机器学习技术(如矩阵分解与主题建模、聚类与分类/回归等),并深入探讨了模型的原理和内在联系以及相应的性能评估;其次,详细介绍了结合异构数据的文本学习技术(如知识共享与迁移学习等),以及面向信息检索与排序的索引和评分等技术;末尾,详细介绍了一些文本应用相关的重要技术,包括序列建模与深度学习、文本摘要与信息提取、意见挖掘与情感分析、文本分割与事件检测等。本书从技术原理到实际应用,综合梳理了文本机器学习的多个技术,深入分析了模型的优缺点和内在联系,并在每章结束时提供了详细的参考资料、软件资源和习题。 《文本机器学习》不仅可以作为工具书供具有相关背景的专业人士使用,也可以作为教材帮助具有线性代数和概率论基础的初学者入门。

目录

译者序
原书前言
致谢
第1章 文本机器学习导论1
1.1导论1
1.1.1本章内容组织结构2
1.2文本学习有何特别之处3
1.3文本分析模型4
1.3.1文本预处理和相似度计算4
1.3.2降维与矩阵分解6
1.3.3文本聚类6
1.3.4文本分类与回归建模8
1.3.5结合文本与异构数据的联合分析10
1.3.6信息检索与网页搜索11
1.3.7序列语言建模与嵌入11
1.3.8文本摘要11
1.3.9信息提取11
1.3.10意见挖掘与情感分析12
1.3.11文本分割与事件检测12
1.4本章小结12
1.5参考资料13
1.5.1软件资源13
1.6习题13
第2章 文本预处理与相似度计算15
2.1导论15
2.1.1本章内容组织结构16
2.2原始文本提取与词条化16
2.2.1文本提取中与网页相关的问题18
2.3从词条中提取词项19
2.3.1停用词移除19
2.3.2连字符19
2.3.3大小写转换20
2.3.4基于用法的合并20
2.3.5词干提取21
2.4向量空间表示与归一化21
2.5文本中的相似度计算23
2.5.1idf归一化和词干提取是否总是有用25
2.6本章小结26
2.7参考资料26
2.7.1软件资源26
2.8习题27
第3章 矩阵分解与主题建模28
3.1导论28
3.1.1本章内容组织结构30
3.1.2将二分解归一化为标准的三分解30
3.2奇异值分解(SVD)31
3.2.1SVD的例子33
3.2.2实现SVD的幂迭代法35
3.2.3SVD/LSA的应用35
3.2.4SVD/LSA的优缺点36
3.3非负矩阵分解36
3.3.1非负矩阵分解的可解释性38
3.3.2非负矩阵分解的例子39
3.3.3融入新文档40
3.3.4非负矩阵分解的优缺点41
3.4概率潜在语义分析(PLSA)41
3.4.1与非负矩阵分解的联系44
3.4.2与SVD的比较44
3.4.3PLSA的例子45
3.4.4PLSA的优缺点45
3.5隐含狄利克雷分布(LDA)概览46
3.5.1简化的LDA模型46
3.5.2平滑的LDA模型49
3.6非线性变换和特征工程50
3.6.1选择一个相似度函数52
3.6.2Nystrom估计58
3.6.3相似度矩阵的部分可用性60
3.7本章小结61
3.8参考资料62
3.8.1软件资源62
3.9习题63
第4章 文本聚类65
4.1导论65
4.1.1本章内容组织结构66
4.2特征选择与特征工程66
4.2.1特征选择67
4.2.2特征工程68
4.3主题建模和矩阵分解70
4.3.1混合隶属度模型与重叠簇70
4.3.2非重叠簇与双聚类:矩阵分解的角度70
4.4面向聚类的生成混合模型74
4.4.1伯努利模型75
4.4.2多项式模型76
4.4.3与混合隶属度主题模型的比较77
4.4.4与朴素贝叶斯分类模型的联系77
4.5k均值算法78
4.5.1收敛与初始化80
4.5.2计算复杂度80
4.5.3与概率模型的联系81
4.6层次聚类算法81
4.6.1高效实现与计算复杂度83
4.6.2与k均值的自然联姻84
4.7聚类集成85
4.7.1选择集成分量86
4.7.2混合来自不同分量的结果86
4.8将文本当作序列来进行聚类87
4.8.1面向聚类的核方法87
4.8.2数据相关的核方法:谱聚类90
4.9聚类到有监督学习的转换91
4.9.1实际问题92
4.10聚类评估93
4.10.1内部有效性度量的缺陷93
4.10.2外部有效性度量93
4.11本章小结97
4.12参考资料97
4.12.1软件资源98
4.13习题98
第5章 文本分类:基本模型100
5.1导论100
5.1.1标记的类型与回归建模101
5.1.2训练与测试102
5.1.3归纳、直推和演绎学习器102
5.1.4基本模型103
5.1.5分类器中与文本相关的挑战103
5.2特征选择与特征工程104
5.2.1基尼系数104
5.2.2条件熵105
5.2.3逐点互信息105
5.2.4紧密相关的度量方式106
5.2.5χ2-统计量106
5.2.6嵌入式特征选择模型108
5.2.7特征工程技巧108
5.3朴素贝叶斯模型109
5.3.1伯努利模型109
5.3.2多项式模型111
5.3.3实际观察113
5.3.4利用朴素贝叶斯对输出进行排序113
5.3.5朴素贝叶斯的例子113
5.3.6半监督朴素贝叶斯116
5.4*近邻分类器118
5.4.11-*近邻分类器的属性119
5.4.2Rocchio与*近质心分类121
5.4.3加权*近邻122
5.4.4自适应*近邻:一系列有效的方法124
5.5决策树与随机森林126
5.5.1构造决策树的基本步骤126
5.5.2分裂一个节点127
5.5.3多变量分裂128
5.5.4决策树在文本分类中的问题129
5.5.5随机森林129
5.5.6把随机森林看作自适应*近邻方法130
5.6基于规则的分类器131
5.6.1顺序覆盖算法131
5.6.2从决策树中生成规则133
5.6.3关联分类器134
5.6.4预测135
5.7本章小结135
5.8参考资料135
5.8.1软件资源137
5.9习题137
第6章 面向文本的线性分类与回归140
6.1导论140
6.1.1线性模型的几何解释141
6.1.2我们需要偏置变量吗142
6.1.3使用正则化的线性模型的一般定义143
6.1.4将二值预测推广到多类144
6.1.5面向文本的线性模型的特点145
6.2*小二乘回归与分类145
6.2.1使用L2正则化的*小二乘回归145
6.2.2LASSO:使用L1正则化的*小二乘回归148
6.2.3Fisher线性判别与*小二乘分类器150
6.3支持向量机(SVM)156
6.3.1正则优化解释156
6.3.2*大间隔解释157
6.3.3Pegasos:在原始空间中求解SVM 159
6.3.4对偶SVM优化形式160
6.3.5对偶SVM的学习算法162
6.3.6对偶SVM的自适应*近邻解释163
6.4对数几率回归165
6.4.1正则优化解释165
6.4.2对数几率回归的训练算法166
6.4.3对数几率回归的概率解释167
6.4.4多元对数几率回归与其他推广
展开全部

作者简介

Charu C. Aggarwal是一名供职于纽约约克镇高地的IBM T. J. Watson研究中心的杰出研究员,他于1993年在坎普尔的印度理工学院获得计算机科学学士学位,并于1996年获得麻省理工学院的博士学位。他在国际会议和期刊上发表了350多篇论文,并获得了80多项专利。同时,他还以作者或参编者的身份出版了17本著作,包括数据挖掘、推荐系统和异常值分析方面的教材。他曾三次因专利的商业价值被IBM授予发明大师的荣誉。他曾获得多项内部和外部奖项,包括EDBT的时间考验奖(2014年)和IEEE ICDM研究贡献奖(2015年)。他还担任数据挖掘领域许多主要会议的程序主席或总主席,同时他还是ACM Transactions on Knowledge Discovery from Data的主编。由于在知识发现和数据挖掘算法方面的贡献,他被授予SIAM、ACM和IEEE的会士(Fellow)荣誉。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航