暂无评论
图文详情
- ISBN:9787313248916
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:26cm
- 页数:258页
- 出版时间:2021-05-01
- 条形码:9787313248916 ; 978-7-313-24891-6
内容简介
本书主要内容包括语言数据分析基础 (数据结构、数据清洗、数据可视化等) 以及语言数据分析应用 (N-grams/Chunk提取、相似性计算、情感分析、语义分析、主题分析、语料库变量分析等) 。全书共分两部分十个章节, 内容限制在Python的语料库应用提升阶段, 更多结合语言学和翻译学的相关理论知识, 实现技术与语言学/翻译学的充分结合。
目录
上篇 语言数据分析基础
第1章 语言数据结构
1.1 一维数据结构
1.1.1 单词列表
1.1.2 术语列表
1.1.3 句子列表
1.1.4 段落列表
1.1.5 语篇列表
1.1.6 其他一维数据结构
1.2 二维数据结构
1.2.1 字典结构
1.2.2 元组列表结构
1.2.3 二维数据的遍历
1.3 多维数据结构
1.3.1 元组字典结构
1.3.2 列表元组列表结构
1.3.3 Brown语料库词性标记训练集
1.4 数据结构转换
1.4.1 多连词的转换
1.4.2 矩阵结构的转换
1.4.3 spaCy列表到NLTK列表的转换
第2章 语言数据清洗
2.1 Python数据清洗方法
2.1.1 无效字符清除方法
2.1.2 字符判断方法
2.1.3 替换方法
2.1.4 标点符号清除方法
2.1.5 停用词方法
2.2 无效信息的清洗
2.2.1 何为无效信息
2.2.2 新闻文本的语言数据清洗
2.2.3 中文动词的清洗
2.3 有效信息的清洗
2.3.1 何为有效信息
2.3.2 英文动词词组的清洗
2.3.3 词形还原法
2.3.4 特征值清洗
第3章 语言数据可视化
3.1 数字结果可视化
3.1.1 语篇词汇密度分布及其柱状图可视化
3.1.2 作业分数统计及其正态分布拟合可视化
3.1.3 语篇词长分布及其折线图可视化
3.1.4 信息贡献度分布对比及其散点图可视化
3.1.5 语篇长句界定及其句长分布可视化
3.2 文字结果可视化
3.2.1 词汇相似性及其相关矩阵可视化
3.2.2 主题词凸显及其分布式可视化
3.2.3 评价语句的相似性及其聚类可视化
3.2.4 语篇语义分析及其语义网络可视化
第4章 数据分析可选方法
4.1 Python+Excel应用
4.1.1 长句文字内容和句长分布
4.1.2 上下文关键词呈现
4.1.3 多文本对比呈现
4.1.4 过程prdndas数据结构呈现
4.2 正则表达式方法
4.2.1 概述
4.2.2 案例1——首字母为元音的单词提取
4.2.3 案例2——主题词L5R5搭配提取
4.3 文本分类方法
4.3.1 以关键词实现大文本分类
4.3.2 以情感极性实现小文本分类
4.3.3 朴素贝叶斯分类法
4.4 语言数据检验
下篇 语言数据分析理论与应用
第5章 短语学及其计算语言学方法
5.1 短语学与计算语言学
5.1.1 语料库与短语学
5.1.2 计算语言学
5.1.3 基于意义单位的研究
5.1.4 短语学技术应用
5.2 短语数据处理工具
5.2.1 全额提取方法
5.2.2 分类提取方法
5.3 短语学分析路径
5.3.1 学术文本模糊短语的弱化表述手段
5.3.2 话语分析及其ngrms()短语数据清洗
5.3.3 多词术语的结构语义消歧
第6章 情感分析理论、方法与路径
6.1 情感分析与接受度定位
6.1.1 情感与情感分析
6.1.2 国际关系领域
6.1.3 市场营销领域
6.1.4 教育领域
6.1.5 应用与不足
6.2 情感分析工具
6.2.1 中文类工具
6.2.2 英文类工具
6.2.3 混合类工具——朴素贝叶斯分类法
6.3 情感分析路径
6.3.1 情感分析与传统民意调查比较
6.3.2 基于文本情感分析的商品评价
6.3.3 朴素贝叶斯分类法与情感分析
6.3.4 择校行为影响因素与情感分类
第7章 相似性度量理论与应用
7.1 相似性度量与文本分析
7.1.1 基于语义信息的相似性
7.1.2 三个层级的度量路径
7.1.3 文本数据和知识库
7.2 相似性度量工具
7.2.1 词汇相似性度量
7.2.2 句子相似性度量
7.2.3 语篇相似性度量
7.3 文本相似性分析路径
7.3.1 多译本相似性度量
7.3.2 著作权法/版权法概念copyright及其搭配的相似性
7.3.3 语料库的平衡性问题
第8章 语义分析与文本探究
8.1 语义分析与相关模型
8.1.1 语义迁移与分布式词向量
8.1.2 语义主题词与信息贡献度
8.1.3 语义关系与语义网
8.1.4 文本语义与语义网络分析
8.2 语义分析工具
8.2.1 词向量(词嵌入)模型
8.2.2 语义网资源
8.2.3 spaCy方法
8.2.4 向量模型
8.3 文本语义分析路径
8.3.1 著作权法/版权法概念copyright词向量关联性
8.3.2 语义迁移描述与代码融合
8.3.3 汉英法律语义检索词典构建
第9章 主题建模与文本主题
9.1 主题建模中的主题挖掘
9.1.1 语料库主题概述
9.1.2 主题建模方法论启示
9.1.3 历时性文本主题
9.1.4 共时性文本主题
9.1.5 讨论与总结
9.2 主题建模工具
9.2.1 Gensim主题建模方法
9.2.2 Sklearn主题建模方法
9.2.3 中文主题模型方法
9.3 主题建模实现路径
9.3.1 话语分析中
第1章 语言数据结构
1.1 一维数据结构
1.1.1 单词列表
1.1.2 术语列表
1.1.3 句子列表
1.1.4 段落列表
1.1.5 语篇列表
1.1.6 其他一维数据结构
1.2 二维数据结构
1.2.1 字典结构
1.2.2 元组列表结构
1.2.3 二维数据的遍历
1.3 多维数据结构
1.3.1 元组字典结构
1.3.2 列表元组列表结构
1.3.3 Brown语料库词性标记训练集
1.4 数据结构转换
1.4.1 多连词的转换
1.4.2 矩阵结构的转换
1.4.3 spaCy列表到NLTK列表的转换
第2章 语言数据清洗
2.1 Python数据清洗方法
2.1.1 无效字符清除方法
2.1.2 字符判断方法
2.1.3 替换方法
2.1.4 标点符号清除方法
2.1.5 停用词方法
2.2 无效信息的清洗
2.2.1 何为无效信息
2.2.2 新闻文本的语言数据清洗
2.2.3 中文动词的清洗
2.3 有效信息的清洗
2.3.1 何为有效信息
2.3.2 英文动词词组的清洗
2.3.3 词形还原法
2.3.4 特征值清洗
第3章 语言数据可视化
3.1 数字结果可视化
3.1.1 语篇词汇密度分布及其柱状图可视化
3.1.2 作业分数统计及其正态分布拟合可视化
3.1.3 语篇词长分布及其折线图可视化
3.1.4 信息贡献度分布对比及其散点图可视化
3.1.5 语篇长句界定及其句长分布可视化
3.2 文字结果可视化
3.2.1 词汇相似性及其相关矩阵可视化
3.2.2 主题词凸显及其分布式可视化
3.2.3 评价语句的相似性及其聚类可视化
3.2.4 语篇语义分析及其语义网络可视化
第4章 数据分析可选方法
4.1 Python+Excel应用
4.1.1 长句文字内容和句长分布
4.1.2 上下文关键词呈现
4.1.3 多文本对比呈现
4.1.4 过程prdndas数据结构呈现
4.2 正则表达式方法
4.2.1 概述
4.2.2 案例1——首字母为元音的单词提取
4.2.3 案例2——主题词L5R5搭配提取
4.3 文本分类方法
4.3.1 以关键词实现大文本分类
4.3.2 以情感极性实现小文本分类
4.3.3 朴素贝叶斯分类法
4.4 语言数据检验
下篇 语言数据分析理论与应用
第5章 短语学及其计算语言学方法
5.1 短语学与计算语言学
5.1.1 语料库与短语学
5.1.2 计算语言学
5.1.3 基于意义单位的研究
5.1.4 短语学技术应用
5.2 短语数据处理工具
5.2.1 全额提取方法
5.2.2 分类提取方法
5.3 短语学分析路径
5.3.1 学术文本模糊短语的弱化表述手段
5.3.2 话语分析及其ngrms()短语数据清洗
5.3.3 多词术语的结构语义消歧
第6章 情感分析理论、方法与路径
6.1 情感分析与接受度定位
6.1.1 情感与情感分析
6.1.2 国际关系领域
6.1.3 市场营销领域
6.1.4 教育领域
6.1.5 应用与不足
6.2 情感分析工具
6.2.1 中文类工具
6.2.2 英文类工具
6.2.3 混合类工具——朴素贝叶斯分类法
6.3 情感分析路径
6.3.1 情感分析与传统民意调查比较
6.3.2 基于文本情感分析的商品评价
6.3.3 朴素贝叶斯分类法与情感分析
6.3.4 择校行为影响因素与情感分类
第7章 相似性度量理论与应用
7.1 相似性度量与文本分析
7.1.1 基于语义信息的相似性
7.1.2 三个层级的度量路径
7.1.3 文本数据和知识库
7.2 相似性度量工具
7.2.1 词汇相似性度量
7.2.2 句子相似性度量
7.2.3 语篇相似性度量
7.3 文本相似性分析路径
7.3.1 多译本相似性度量
7.3.2 著作权法/版权法概念copyright及其搭配的相似性
7.3.3 语料库的平衡性问题
第8章 语义分析与文本探究
8.1 语义分析与相关模型
8.1.1 语义迁移与分布式词向量
8.1.2 语义主题词与信息贡献度
8.1.3 语义关系与语义网
8.1.4 文本语义与语义网络分析
8.2 语义分析工具
8.2.1 词向量(词嵌入)模型
8.2.2 语义网资源
8.2.3 spaCy方法
8.2.4 向量模型
8.3 文本语义分析路径
8.3.1 著作权法/版权法概念copyright词向量关联性
8.3.2 语义迁移描述与代码融合
8.3.3 汉英法律语义检索词典构建
第9章 主题建模与文本主题
9.1 主题建模中的主题挖掘
9.1.1 语料库主题概述
9.1.2 主题建模方法论启示
9.1.3 历时性文本主题
9.1.4 共时性文本主题
9.1.5 讨论与总结
9.2 主题建模工具
9.2.1 Gensim主题建模方法
9.2.2 Sklearn主题建模方法
9.2.3 中文主题模型方法
9.3 主题建模实现路径
9.3.1 话语分析中
展开全部
本类五星书
本类畅销
-
深度学习的数学
¥43.5¥69.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥31.9¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥22.1¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥83.3¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0 -
贝叶斯推理与机器学习
¥139.3¥199.0