×
文本大数据分析方法及应用 —— 基于主题模型和机器学习理论

包邮文本大数据分析方法及应用 —— 基于主题模型和机器学习理论

1星价 ¥34.8 (7.1折)
2星价¥34.8 定价¥49.0
暂无评论
图文详情
  • ISBN:9787111769811
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:158
  • 出版时间:2025-02-01
  • 条形码:9787111769811 ; 978-7-111-76981-1

本书特色

本书系统介绍文本数据的分析方法,对于数据科学的专业人士学习交流具有重要的意义和价值。
本书选题来源于人文社会科学重点研究基地重大项目 “数字时代的统 计学理论与方法研究”(22JJD110001)。该项目的一个研究内容是动态文本大数 据的理论与应用研究。

内容简介

本书基于作者多年来对于文本大数据的研究成果创作完成,主要分 为两部分内容。**部分包括前 5 章,基于主题模型,首先介绍了基础 的主题模型及其推断、评价方法,然后介绍了多语料联合、动态稀疏等 多角度的主题模型,以及主题模型的变点检测方法。第二部分包括后 3 章,基于机器学习和深度学习模型,包括文本分层分类模型、异质图新 闻推荐模型以及基于多层级信息的多模态属性级情感分析模型。书中每 种方法均配有实际分析案例。本书对文本分析方法的理论研究和实践应 用有重要参考价值,可作为大学相关专业高年级本科生或研究生的入门教材,也可作为从事相关技术研发的开发人员的参考书。

前言

当今各种生产、交易和生活场景正在发生全面数字化转型,经济社会系统正 在加速迈向数字时代。在智能、数字、网络三大要素的驱动下的数字技术将引领 未来战略性科技发展趋势。在数字时代的大背景下,数字技术为统计学科提供了 广泛而丰富的分析素材,同时也对统计测量、统计理论、统计算法提出了新的挑 战。在数字时代中,数据科学是关键。数据科学带动多学科融合,其基础理论研 究的重要性日益凸显。统计学作为数据科学的核心方法论,其理论与方法的进展 将对我国数据科学以及数据技术的整体实力提升有着极其重要的意义。文本数据 是一种重要的数据类型,对文本数据的充分分析,必将为社会生产生活带来重大 效益。本书系统介绍文本数据的分析方法,对于数据科学的专业人士学习交流具 有重要的意义和价值。 本书选题来源于人文社会科学重点研究基地重大项目 “数字时代的统 计学理论与方法研究”(22JJD110001)。该项目的一个研究内容是动态文本大数 据的理论与应用研究。本书在整理该项目研究成果以及作者与合作者多年来对于 文本大数据的研究成果的基础上创作完成,主要分为两部分内容。 第 1 部分(前 5 章)基于主题模型,第 1 章介绍了基础的主题模型及其推断、 评价方法。第 2 章介绍多语料联合主题模型,寻找多语料的共有主题以及各语料 的特有主题,并应用到品牌竞争商业数据分析中。第 3 章介绍动态稀疏主题模型, 在动态主题模型的基础上,实现了主题稀疏,并应用学术期刊、研究生论文集数 据来分析学术热点转变。第 4 章介绍动态稀疏联合主题模型,实现多文档联动建 模,并应用到学术会议与期刊语料的影响研究。第 5 章介绍混合贝叶斯变点检测 模型,研究文本主题随时间的变化,并应用到商品评论等多个数据的分析中。 第 2 部分(后 3 章)基于机器学习和深度学习模型,第 6 章介绍文本分层分 类模型,应用到团购商品标签分类、新闻数据分类等问题的研究中。第 7 章介绍 异质图新闻推荐模型,应用到 MIND small 新闻数据集。第 8 章介绍基于多层级 信息的多模态属性级情感分析模型,应用到 MASAD 数据集。本书作者感谢合作者以及所带研究生长期以来的合作和付出,他们是王菲菲、 赵俊龙、王小宁、范一苇、郭昱璇、邢晨、周睿、吴昆、朱彦頔、冯艺超、林中潭、 周涛等。由于本书作者时间、能力有限,对于书中不足之处,敬请读者不吝赐教。

目录

目录
前言
第 1 章 主题模型简介 1
1.1 基本概念与符号 2
1.2 基础主题模型 3
1.2.1 LDA 模型 3
1.2.2 DTM 模型 5
1.3 参数推断方法 6
1.3.1 变分贝叶斯 6
1.3.2 Gibbs 抽样 11
1.4 评价指标 14
1.4.1 评价模型的泛化
能力 14
1.4.2 评价主题内部的
一致性 15
1.4.3 评价不同主题间的
相似性 16
1.5 实例应用 16
1.6 模型拓展 18
1.6.1 短文本建模 19
1.6.2 有监督模型 20
1.6.3 词向量主题模型 21
参考文献 21
附录:Dirichlet-Multinomial
共轭结构 22
第 2 章 多语料联合主题模型 24
2.1 基本概念与符号 25
2.2 多语料联合主题模型 26
2.2.1 模型生成过程 26
2.2.2 *大熵模型 28
2.3 参数推断方法 29
2.3.1 模型推断 29
2.3.2 超参确定 31
2.4 实例应用 32
2.4.1 护肤品数据集 32
2.4.2 连锁日本餐厅
数据集 36
2.5 讨论 42
参考文献 42
第 3 章 动态稀疏主题模型 43
3.1 基本概念与符号 44
3.2 动态稀疏主题模型 45
3.2.1 模型介绍 45
3.2.2 模型生成过程 46
3.3 参数推断方法 47
3.3.1 零阶坍塌变分贝叶
斯推断算法 48
3.3.2 参数估计 49
3.3.3 推断算法 51
3.4 实例应用 52
3.4.1 JASA 数据集 52
3.4.2 研究生论文语
料库 55
3.5 讨论 58
参考文献 59
第 4 章 动态稀疏联合主题
模型 61
4.1 基本概念与符号 62
4.2 动态稀疏联合主题模型 63
4.3 参数推断方法 66
4.3.1 变分贝叶斯 EM
算法 67
4.3.2 变分卡尔曼滤波
算法 70
4.3.3 推断算法 71
4.4 实例应用 72
4.5 讨论 78
参考文献 78
第 5 章 混合贝叶斯变点检测
模型 80
5.1 基本概念与符号 81
5.2 混合贝叶斯变点检测
模型 82
5.3 参数推断方法 84
5.4 实例应用 87
5.4.1 亚马逊评论数
据集 87
5.4.2 期刊数据集 90
5.4.3 联合国数据集 93
5.5 讨论 96
参考文献 96
第 6 章 文本分层分类模型 98
6.1 基本概念与符号 99
6.2 文本分层分类模型 100
6.2.1 H.S. 性质 100
6.2.2 分层结构中节点间的
不相似度 103
6.2.3 基于角的分层分
类器 105
6.3 模型求解算法 109
6.3.1 标签嵌入法 109
6.3.2 线性损失 115
6.4 实例应用 116
6.4.1 评价指标 116
6.4.2 实证分析 118
6.5 讨论 122
参考文献 122
第 7 章 异质图新闻推荐模型 124
7.1 基本概念与符号 125
7.2 异质图新闻推荐模型 126
7.2.1 准备知识 126
7.2.2 模型简介 126
7.2.3 节点特征准备 127
7.2.4 异质邻居采样 129
7.2.5 信息聚合与
预测 129
7.3 实例应用 133
7.3.1 数据集与对比
模型 133
7.3.2 实验结果 134
7.4 讨论 137
参考文献 137
第 8 章 基于多层级信息的多模态
属性级情感分析模型 139
8.1 基本概念与符号 140
8.2 基于多层级信息的多模态
属性级情感分析模型 141
8.2.1 基础模型 141
8.2.2 多模态联合模型 142
8.3 实例应用 150
8.3.1 数据集介绍 150
8.3.2 评估指标 152
8.3.3 基线模型 153
8.3.4 实验结果 153
8.4 讨论 157
参考文献 158
展开全部

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航