买过本商品的人还买了
暂无评论
图文详情
- ISBN:9787513041041
- 装帧:暂无
- 册数:暂无
- 重量:暂无
- 开本:32开
- 页数:248
- 出版时间:2016-03-01
- 条形码:9787513041041 ; 978-7-5130-4104-1
本书特色
从这本著作中可以了解藏语文本特征,更可以学习到藏语文信息处理的方法。
内容简介
藏语分词研究是藏语文本信息处理*基本的研究工作,国内藏语分词研究经历了十多年的历史,研究方法也从*初的基于词典匹配的规则方法到基于大规模文本的统计方法。但是到目前为止没有一个实用的藏语分词软件和供分词研究的评测语料库。本书作者针对藏语分词中的各种问题,进行细致的阐述,并在同一评测语料库的基础上,对各种分词方法进行实验、测试,比较。
目录
第1章 现代藏文文本特点
1.1现代藏文字母、符号和编码
1.2藏文字符编码与分词的关系
1.3藏文音节结构
1.4藏文的数字
1.5藏文黏写特点
1.6藏文标点符号特点
1.7 藏文命名实体的特点
1.7.1藏文人名特点
1.7.2藏文地名的特点
1.7.3藏文机构名的特点
1.7.4藏文时间词特点
1.7.5藏文的地址特点
1.8藏文文本的其他特点
第2章 藏语分词研究的历史与现状
2.1引言
2.2藏语分词的思路
2.3藏语分词原则及分词词表研究
2.4藏语分词技术研究
2.5藏语现有分词系统比较
第3章 藏语文本分词规范与原则
3.1藏语机器分词原则的讨论
3.1.1 汉语分词原则的研究历史
3.1.2 藏文分词原则的研究历史
3.2藏语分词原则的操作
3.2.1藏语分词总原则
3.2.2藏语分词细则
3.3 本书分词语料库简介
第4章 藏语黏写形式切分方法比较研究
4.1 藏语黏写形式特点
4.1.1黏写形式的含义
4.1.2 黏写形式切分困难
4.1.3黏写形式的分布
4.2黏写形式切分方法
4.2.1基于规则的还原法
4.2.2基于规则和统计结合的切分方法
4.2.3基于统计的字位标注法
4.3黏写形式切分实验及结果比较
4.3.1基于规则的一体化切分实验
4.3.2基于统计的黏写分词一体化切分实验
4.3.4基于统计的“单切分”实验
4.3.5基于统计和规则相结合实验
第5章 基于规则的藏语分词研究
5.1 规则分词
5.1.1*大匹配分词法
5.1.2逐词遍历匹配法
5.2藏语规则匹配分词存在的问题
5.2.1未登录词对分词的影响
5.2.3歧义切分对分词的影响
5.3基于规则分词方法的改进
5.3.1基于组块的分词改进
5.3.2加入词频信息
5.3.3设立切词标记
5.3.4词典排序的改进
5.4规则分词评测标准及实验分析
5.4.1 分词评测标准
5.4.2分词评测语料
5.4.3 *大匹配分词实验
5.4.4 基于黏写预处理的规则分词实验
5.4.5 基于格分块的规则分词实验
5.5 基于规则的分词软件简介
5.5.1软件说明
5.5.2软件安装与卸载
5.5.3软件平台
5.5.4软件操作
第6章 基于规则分词的数词处理
6.1藏文的数字及数词结构
6.2基于规则的藏文数字识别
6.2.1数字构件的分类
6.2.2 数字识别
6.2.3 实验结果
第7章 基于*大熵模型的藏文分词研究
7.1引言
7.2*大熵模型
7.2.1信息熵
7.2.2互信息
7.2.3*大熵原理
7.2.4*大熵模型
7.3*大熵模型在藏语分词中的应用
7.3.1*大熵模型应用于藏语分词的基本思想
7.3.2*大熵模型的下载与安装
7.3.3*大熵藏文分词模型的训练
7.3.4*大熵藏文分词模型的测试
7.4 基于字位的藏文*大熵分词实验
7.4.1 *大熵分词实验
7.4.2错误分析
第8章 基于条件随机场模型的藏文分词研究
8.1条件随机场模型简介
8.2条件随机场的藏文分词的原理和方法
8.3字位标注的藏文分词原理
8.3.1基本思想
8.3.2标签集的优化
8.3.3特征模板集
8.4 实验及结果分析
8.4.1 实验设计
8.4.2 实验结果与分析
8.4.3 错误分析
8.4.4 基于统计的数字处理
8.4.5 基于统计的数字处理实验及结果
8.5基于统计的藏语分词软件简介
8.5.1软件说明
8.5.2软件安装与卸载
8.5.3软件使用
8.5.4 打开文件
8.5.5 模型训练
8.5.6 利用模型分词
第9章 基于融合方法的藏文分词研究
9.1统计与规则相结合的藏语分词
9.1.1 TBL方法原理
9.1.2 TBL模型
9.1.3 TBL融合实验
9.2统计、词典和语言规则相结合的分词实验
9.2.1黏写音节切分错误校正
9.2.2由语法问题导致切分错误的校正
9.2.3歧义切分错误校正
9.3分词实验语料一致性检测
第10章 藏语分词、词性标注一体化研究
10.1分词和词性标注一体的概述
10.2藏语词性标注的现状和问题
10.3 藏语分词、词性标注一体化研究
10.3.1基于词级的分词标注一体化研究
10.3.2基于字的分词标注一体化研究
附录1信息处理用现代藏语分词规范(草案)
1.1范围
1.2规范性引用文件
1.3术语和定义
1.4总则
1.5具体说明
1.6参考文献
附录2 信息处理用现代藏语词类标记集规范(草案)
2.1前言
2.2范围
2.3规范性引用文件
2.4术语和定义
2.5总则
2.6具体说明
2.2.7有关说明
2.2.8参考文献
附录3 多级标注语料库简介
3.1语料加工平台
3.2语料选择
附录4 CRF工具包介绍
4.1 CRF工具下载与安装
4.2制作相关的文件
4.3训练模型
4.4测试
附录5分词测试工具包使用说明
5.1工具包下载和安装
5.2制作相关文件
5.3测试
附录6 fnTBL工具包介绍
6.1工具包下载和安装
6.2制作运行fnTBL工具包的相关运行文件。
6.3训练fnTBL模型
6.4测试
附录7 藏文拉丁转写表
参考文献
1.1现代藏文字母、符号和编码
1.2藏文字符编码与分词的关系
1.3藏文音节结构
1.4藏文的数字
1.5藏文黏写特点
1.6藏文标点符号特点
1.7 藏文命名实体的特点
1.7.1藏文人名特点
1.7.2藏文地名的特点
1.7.3藏文机构名的特点
1.7.4藏文时间词特点
1.7.5藏文的地址特点
1.8藏文文本的其他特点
第2章 藏语分词研究的历史与现状
2.1引言
2.2藏语分词的思路
2.3藏语分词原则及分词词表研究
2.4藏语分词技术研究
2.5藏语现有分词系统比较
第3章 藏语文本分词规范与原则
3.1藏语机器分词原则的讨论
3.1.1 汉语分词原则的研究历史
3.1.2 藏文分词原则的研究历史
3.2藏语分词原则的操作
3.2.1藏语分词总原则
3.2.2藏语分词细则
3.3 本书分词语料库简介
第4章 藏语黏写形式切分方法比较研究
4.1 藏语黏写形式特点
4.1.1黏写形式的含义
4.1.2 黏写形式切分困难
4.1.3黏写形式的分布
4.2黏写形式切分方法
4.2.1基于规则的还原法
4.2.2基于规则和统计结合的切分方法
4.2.3基于统计的字位标注法
4.3黏写形式切分实验及结果比较
4.3.1基于规则的一体化切分实验
4.3.2基于统计的黏写分词一体化切分实验
4.3.4基于统计的“单切分”实验
4.3.5基于统计和规则相结合实验
第5章 基于规则的藏语分词研究
5.1 规则分词
5.1.1*大匹配分词法
5.1.2逐词遍历匹配法
5.2藏语规则匹配分词存在的问题
5.2.1未登录词对分词的影响
5.2.3歧义切分对分词的影响
5.3基于规则分词方法的改进
5.3.1基于组块的分词改进
5.3.2加入词频信息
5.3.3设立切词标记
5.3.4词典排序的改进
5.4规则分词评测标准及实验分析
5.4.1 分词评测标准
5.4.2分词评测语料
5.4.3 *大匹配分词实验
5.4.4 基于黏写预处理的规则分词实验
5.4.5 基于格分块的规则分词实验
5.5 基于规则的分词软件简介
5.5.1软件说明
5.5.2软件安装与卸载
5.5.3软件平台
5.5.4软件操作
第6章 基于规则分词的数词处理
6.1藏文的数字及数词结构
6.2基于规则的藏文数字识别
6.2.1数字构件的分类
6.2.2 数字识别
6.2.3 实验结果
第7章 基于*大熵模型的藏文分词研究
7.1引言
7.2*大熵模型
7.2.1信息熵
7.2.2互信息
7.2.3*大熵原理
7.2.4*大熵模型
7.3*大熵模型在藏语分词中的应用
7.3.1*大熵模型应用于藏语分词的基本思想
7.3.2*大熵模型的下载与安装
7.3.3*大熵藏文分词模型的训练
7.3.4*大熵藏文分词模型的测试
7.4 基于字位的藏文*大熵分词实验
7.4.1 *大熵分词实验
7.4.2错误分析
第8章 基于条件随机场模型的藏文分词研究
8.1条件随机场模型简介
8.2条件随机场的藏文分词的原理和方法
8.3字位标注的藏文分词原理
8.3.1基本思想
8.3.2标签集的优化
8.3.3特征模板集
8.4 实验及结果分析
8.4.1 实验设计
8.4.2 实验结果与分析
8.4.3 错误分析
8.4.4 基于统计的数字处理
8.4.5 基于统计的数字处理实验及结果
8.5基于统计的藏语分词软件简介
8.5.1软件说明
8.5.2软件安装与卸载
8.5.3软件使用
8.5.4 打开文件
8.5.5 模型训练
8.5.6 利用模型分词
第9章 基于融合方法的藏文分词研究
9.1统计与规则相结合的藏语分词
9.1.1 TBL方法原理
9.1.2 TBL模型
9.1.3 TBL融合实验
9.2统计、词典和语言规则相结合的分词实验
9.2.1黏写音节切分错误校正
9.2.2由语法问题导致切分错误的校正
9.2.3歧义切分错误校正
9.3分词实验语料一致性检测
第10章 藏语分词、词性标注一体化研究
10.1分词和词性标注一体的概述
10.2藏语词性标注的现状和问题
10.3 藏语分词、词性标注一体化研究
10.3.1基于词级的分词标注一体化研究
10.3.2基于字的分词标注一体化研究
附录1信息处理用现代藏语分词规范(草案)
1.1范围
1.2规范性引用文件
1.3术语和定义
1.4总则
1.5具体说明
1.6参考文献
附录2 信息处理用现代藏语词类标记集规范(草案)
2.1前言
2.2范围
2.3规范性引用文件
2.4术语和定义
2.5总则
2.6具体说明
2.2.7有关说明
2.2.8参考文献
附录3 多级标注语料库简介
3.1语料加工平台
3.2语料选择
附录4 CRF工具包介绍
4.1 CRF工具下载与安装
4.2制作相关的文件
4.3训练模型
4.4测试
附录5分词测试工具包使用说明
5.1工具包下载和安装
5.2制作相关文件
5.3测试
附录6 fnTBL工具包介绍
6.1工具包下载和安装
6.2制作运行fnTBL工具包的相关运行文件。
6.3训练fnTBL模型
6.4测试
附录7 藏文拉丁转写表
参考文献
展开全部
作者简介
龙从军,男,1978年9月,中国社会科学院民族学与人类学研究所语音学与计算语言学研究室助理研究员,博士,中国科学院软件研究所基础软件研究中心博士后(在站)。主要研究方向:藏语计算语言学,尤其在藏语自动分词、词性自动标注、句法语义自动标注方面进行过大量的研究。撰写多篇论文,出版合著2本。
本类五星书
本类畅销
-
世界尽头的咖啡馆
¥15.8¥45.0 -
蛤蟆先生去看心理医生
¥19.8¥38.0 -
《标点符号用法》解读
¥5.3¥15.0 -
咬文嚼字二百问
¥13.7¥32.0 -
从零开始的女性主义
¥25.0¥52.0 -
字海探源
¥23.4¥78.0 -
乡土中国
¥12.2¥26.0 -
与内心的恐惧对话:摆脱来自亲人的负能量
¥34.1¥48.0 -
从白大褂到病号服:探索医疗中的人性落差
¥17.2¥39.8 -
社会学:原来这么有趣有用
¥9.0¥36.0 -
始于极限:女性主义往复书简(八品)
¥33.6¥59.0 -
你能写出好故事-写作的诀窍.大脑的奥秘.认知的陷阱
¥13.5¥32.8 -
那一定是心理问题:科学识别身体和心理发出的求救信号
¥19.2¥52.0 -
理解生命
¥10.5¥32.8 -
焦虑心理学:不畏惧、不逃避,和压力做朋友
¥16.3¥38.0 -
中国人的精神
¥14.8¥29.0 -
记忆错觉-记忆如何影响了我们的感知.思维与心理
¥23.9¥39.8 -
上大演讲录(1922-1927卷)(九品)
¥14.0¥52.0 -
乌合之众:大众心理研究
¥11.0¥36.8 -
那时的大学
¥12.1¥28.0