- ISBN:9787512047532
- 装帧:简裝本
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:213页
- 出版时间:2022-12-01
- 条形码:9787512047532 ; 978-7-5120-4753-2
本书特色
在留学生汉字书写研究方面,本书研究的问题主要包括单字提取、汉字识别、笔画匹配及书写笔画错误提取,将语言学与应用语言学、汉字构形学与信息科学中的模式识别、计算机图形学、人工智能等多个领域相结合。在此基础上可以进行有针对性的书写质量评价、改进指导等方面的研究,具有良好的发展前景。
内容简介
外国留学生的手写汉字因受其母语及汉语水平的影响,会出现多种类型的书写错误,这是汉语国际教育中汉字教学的难点之一。采用数码纸笔采集的外国留学生手写汉字含有笔画及其采样点的时间和空间等信息,从而可以有效地分析其书写过程,有利于提取各种书写错误。
本书主要研究识别具有笔画错误的汉字,匹配书写笔画与模板笔画,并提取多种笔画错误;采集了来自14个国家的外国留学生的手写汉字共计19000余份,涵盖500余种字形;开发了原型系统,对汉字识别、笔画匹配、可视化与人机交互校正、笔画错误提取等进行了实验;根据学生的汉字学习过程,原型系统在真实教学场景中进行了跟踪实验。
目录
**章 绪论 / 1
1.1 选题背景 / 1
1.2 研究问题 / 4
1.3 本书工作 / 6
第二章 国内外研究现状及分析 / 10
2.1 单字提取 / 11
2.1.1 相邻笔画时间和空间距离的方法 / 11
2.1.2 语境方法 / 12
2.1.3 机器学习方法 / 13
2.2 汉字识别 / 14
2.2.1 结构方法 / 15
2.2.2 特征提取方法 / 16
2.2.3 深度学习方法 / 17
2.3 笔画匹配 / 19
2.3.1 笔画模板方法 / 19
2.3.2 图匹配方法 / 20
2.3.3 笔段匹配方法 / 21
2.4 书写错误提取 / 22
2.4.1 评价对象 / 22
2.4.2 错误提取方法 / 25
2.4.3 评价反馈方式 / 29
2.5 本章小结 / 31
第三章 基于多层次信息的单字提取方法 32
3.1 递归分割方法 / 33
3.1.1 基于初始分割结果的数据分析 / 34
3.1.2 递归分割算法 / 36
3.2 面向错误分类的分割方法 / 38
3.2.1 错误分类归纳 / 39
3.2.2 面向欠分割的分割方法 / 41
3.2.3 面向过分割的分割方法 / 47
3.2.4 性能测试 / 51
3.3 基于单字提取结果的自适应可视化方法 / 52
3.3.1 可视化方法进展 / 52
3.3.2 基于重叠的自适应可视化方法 / 55
3.3.3 基于可信度的可视化方法 / 61
3.4 针对单字提取结果的交互式校正方法 / 65
3.4.1 基于可视化结果的交互式校正 / 66
3.4.2 基于用户意图的交互式校正 / 69
3.4.3 性能测试 / 71
3.5 本章小结 / 73
第四章 基于书写层次模型的手写汉字识别方法 / 74
4.1 基于笔画名称和整字结构的识别方法 / 75
4.2 部件结构的分类 / 77
4.3 基于 HMM 的笔画识别 / 78
4.3.1 HMM 分类器的训练 / 79
4.3.2 汉字中笔画的识别 / 81
4.3.3 基于笔画名称序列的筛选 / 84
4.4 实验结果 / 85
4.4.1 根据汉字笔画数分类 / 86
4.4.2 根据不同部件结构分类 / 88
4.4.3 根据笔画错误类型分类 / 89
4.5 基于 HCRF 的笔画识别的改进方法 / 91
4.5.1 HCRF 分类器的训练 / 92
4.5.2 HCRF 分类器的实验结果 / 92
4.6 本章小结 / 94
第五章 基于遗传算法的笔画匹配方法 / 95
5.1 遗传算法的基本设置 / 96
5.2 自适应编码方法 / 98
5.2.1 序列编码 / 98
5.2.2 *大值编码 / 99
5.2.3 子笔画编码 / 101
5.3 基于结构和书写特征的适应度函数 / 105
5.3.1 全局特征 / 105
5.3.2 局部特征 / 106
5.3.3 适应度函数的评价 / 108
5.4 实验结果 / 109
5.4.1 根据笔画数分类 / 109
5.4.2 根据部件结构分类 / 111
5.4.3 根据笔画错误类型分类 / 112
5.5 本章小结 / 113
第六章 针对笔画匹配结果的可视化及人机交互校正方法 / 115
6.1 多感知层次的可视化方法 / 116
6.1.1 基于颜色感知层次的表示 / 117
6.1.2 采用图形符号的笔向表示 / 120
6.1.3 采用数字序号的笔顺表示 / 121
6.2 标记表示方法 / 122
6.2.1 标记列表的定义 / 122
6.2.2 标记类型的表示 / 124
6.3 基于标记列表的校正方法 / 125
6.4 实验结果 / 132
6.4.1 可视化 / 132
6.4.2 交互校正 / 134
6.5 本章小结 / 135
第七章 基于标记列表的笔画错误提取方法 / 137
7.1 标记列表与笔画错误的对应关系 / 137
7.2 自适应错误提取 / 146
7.3 实验结果 / 154
7.4 本章小结 / 155
第八章 数据测试与结果分析 / 157
8.1 数据采集 / 157
8.2 数据测试 / 161
第九章 结 论 / 173
附录 1:摹写、听写纸张样图 / 177
附录 2:22名学生实验数据样图 / 179
参考文献??201
节选
**章绪论
1.1选题背景
汉字是汉语书写用的文字,狭义指以正楷作为标准写法的汉字。因形状方正,汉字有“方块字”之称。从结构上来看,汉字字体规整,每个字占据几乎同样的空间。由表意象形字根如金、木、水、火、土等,像积木一样组合而成。汉字包括独体字和合体字,独体字不能分割,合体字由部件组合构成,占汉字数量的90%以上。汉字的部件包括独体字、偏旁部首和其他不成字部件。汉字的合体结构有12种,分为:左右、上下、左中右、上中下、左上包、右上包、左三包、左下包、上三包、下三包、全包围和镶嵌结构。
笔画是汉字的*小构成单位,指一次连续写成的线条。笔画分为横、竖、撇、捺、点、提等31个基本种类。书写汉字时,笔画出现的先后顺序,即“笔顺”,是比较固定的,其基本规则是,先横后竖,先撇后捺,从上到下,从左到右,先外后内,先外后内再封口,先中间后两边。笔画的数目、形状、空间组合关系等因素构成了汉字形体区别特征,这是文字形体的一个基本属性。
在汉语国际教育逐步推广的背景下,汉语教学往往把培养留学生的交际能力放在首位,同时使其具备运用汉语进行听说读写的能力,其中的读和写会涉及汉字。从书写元素看,在组成常用汉字的笔画中,横、竖、撇、点、捺、提的使用频率为77.82%,而书写元素的重复率、结构单位的相似度越高,结构方式的一致性越大,汉字形体所提供的区分度就越小,书写的错误率也就会越高。所以,笔画的书写错误将直接导致部件乃至整字的错误。
对于留学生书写汉字*早采用纸笔的传统模式进行采集和记录,授课教师通过课上实时观察进行指导或课后收取纸质作业进行评判教学。然而,在传统的课堂教学中,教师即便积极观察,也很难全面了解到学生在课堂上的学习情况,尤其是汉字书写的具体情况,更难以对每个学生的汉字书写过程进行及时指导。不仅如此,在课后作业的评改中,传统纸笔的记录方式难以让教师直观了解学生汉字书写的动态过程,因而无法全面知晓学生在课后的汉字掌握情况。同时,通过教师在批改中批注给学生的反馈纠正,如汉字书写的示范,学生也无法去准确地了解笔画的书写顺序和特点,只能看到一个完成版的“画像”。
在将学生书写的汉字记录输入计算机的时候,早期研究者将纸版记录通过照相、扫描等方式转为数字图像文件,并保存在计算机中。后来,有学者使用摄像机对学生的书写过程进行实时拍摄,将形成的视频文件保存于计算机中。该方法可以较完整地记录学生的书写过程,但不足之处在于视频文件往往容量较大,不利于保存和传输。
数字墨水的出现,有效地解决了这些不足,它利用手写板、数码笔等笔式输入设备书写文字,书写轨迹通过定时采样输入计算机中。
近些年不少学者在汉字智能教学方面一直在不停探索[7-9],开发出了一些可以应用于实际的汉字教学软件系统[10-14]。常见的练字系统通常采用的是汉字处理机制,即用户输入一个汉字,软件系统对用户输入的每一笔或对整字进行处理反馈。
随着数据采集设备的升级和大数据量处理的需要,数字墨水数据批量采集和处理分析的处理流程和练字系统有较大不同。因此,本书提出的汉字书写的分析系统总体来说,首先使用数据采集设备批量采集数字墨水数据后输入计算机系统,再对笔画数据进行单字分割和汉字识别提取出书写字,在模板库中检索出对应的模板字,再将书写字与模板字进行笔画匹配,进行人机交互校正后,根据匹配结果进行分析、检测书写错误,如图1所示。
对以西文为母语的留学生来说,尤其是初学者,对于汉字的结构特征和书写习惯不熟悉不了解,把汉字当作符号进行勾画,画出来的字千差万别,这属于系统前阶段的错误。而汉字教学经常是重理据而轻字形,导致一些中高级阶段的留学生仍有很多书写错误,从而影响整体的汉语水平。因此,对于书写错误的研究,尤其是笔画错误的研究很有必要。
1.2研究问题
在对留学生数字墨水汉字书写错误的研究中,虽然前人已经做了大量的工作和尝试,但仍存在一些需要优化和急需解决的问题,在单字分割、汉字识别、笔画匹配、人机交互校正和错误提取等方面都有一些需要优化的地方。本书研究的问题涵盖以下内容。
(1)针对数字墨水汉字的自动分割技术。在数字墨水的计算技术中,墨水的分割技术非常重要,是数字墨水的结构化编辑和识别的基础。它包括自动分割、分割结果的可视化和校正。自动分割指从原始笔迹中快速准确地提取单字、文本行和文本段。在中文数字墨水文本的分割技术中,由于文本行和文本段之间一般有天然的间隔,分割处理中对于行提取和段提取相对容易。本书将研究重点放在单字提取上,重点研究单字提取方法、单字提取结果的可视化方法及针对单字提取结果的交互式校正方法。
(2)存在书写错误的留学生手写汉字的识别。汉字的识别是书写汉字智能分析的基础,虽然中文汉字识别技术已经实现了较高的识别率,但现有的方法从特征提取到分类器的训练,从训练样本到测试数据,大都以中文母语者为研究对象。而留学生所写的汉字和母语者在笔画结构特征和书写习惯上有很多不同[16],特别是当出现书写的错误的情况时,汉字结构特征的改变会增加识别的难度。因此,需要提出针对留学生书写特点和存在书写错误的手写汉字的识别方法。
(3)面向书写错误提取的笔画匹配方法。笔画匹配是书写错误分析的主流方法和前提条件,基于模板字的笔画匹配本身可看作一种组合优化问题。留学生书写质量的千差万别使得问题的规模和复杂程度增大,尤其是存在书写错误的笔画,无论是整个笔画错误还是笔画局部错误,都使得笔画匹配问题不仅仅是一种组合优化问题,还需要考虑问题所处理数据的级别。因此,需要提出自适应的笔画匹配方法,使得匹配结果对于不同类型的书写错误都有较好的针对性。
(4)针对笔画匹配结果的可视化及人机交互校正方法。由于系统自动方法难以得到完全正确的数据结果,所以作为评价所提方法性能的必要条件,需要进行人机交互校正得到正确的数据进行对比实验。有效的人机交互方法,可以减少时间成本,提高效率。人机交互之前,需要针对笔画匹配结果进行可视化表示,才能使校正者进行视觉感知,完成校正。有效的可视化方法可以减轻认知负担,同时准确表示需要显示的信息。因此,需要设计针对笔画匹配结果的可视化方法并在此基础上进行人机交互校正。
(5)留学生书写笔画错误提取的方法。在汉语教学研究中,针对汉字书写错误研究,前人做出了大量的工作。然而,研究对象多以中文母语者为主,与之相比留学生的书写习惯和特点差异较大;此外,研究对于书写错误的分类大都以专家系统为主的经验规则展开,方法的主观性及书写数据的随意性的矛盾使提取结果难以稳定。因此,需要从书写数据本身出发,通过动态生成的笔画匹配结果提取笔画错误。
1.3本书工作
本书针对上述问题,做了以下的工作。
(1)面向中文数字墨水文本的单字提取技术。从分割算法、可视化方法和交互校正三个方面对数字墨水的单字提取问题进行讨论,针对中文数字墨水文本中单字特点,提出了递归分割方法;针对单字提取结果中的错误类型,提出了面向错误分类的分割方法;针对单字提取结果的重叠问题,提出了自适应可视化方法;为提高校正提取结果的效率,提出了单字提取结果的可信度评价指标和基于可信度的可视化方法;通过分析用户的校正意图并结合可视化的图形,提出了以可视化图形为参考对象和辅助工具,符合用户意图的交互式校正方法。
(2)采用书写层次模型的汉字识别方法及其改进方法。本书针对留学生书写习惯及特点,从笔画、部件结构及整字笔画名称序列等书写元素出发,根据不同层次结构特点进行优化,进而识别汉字。首先以整字中心线为依据将书写字的部件结构按上下、左右及其他进行分类;根据部件分类结果对在候选字库中进行筛选;再通过7900余份手写数据训练了一个基于隐马尔可夫模型的笔画分类器;接着使用这个分类器将书写汉字中每个笔画进行识别,根据书写时序信息组成笔画名称序列;*后在筛选库中根据笔画名称序列进行二次筛选,给出识别备选字。此外,书中还进一步改进了笔画分类器,采用隐条件随机场模型进一步提升了识别率。
作者简介
白浩,男,1984年生,现就职于北京语言大学汉语国际教育学部。文学博士(语言学与应用语言学专业),工学硕士(计算机应用技术专业),研究方向为智能书写技术、中文手写计算、模式识别、计算机图形学等。讲授多媒体应用技术基础、程序设计入门等课程。近年来发表论文10余篇,其中9篇被EI或Scopus检索(其中7篇为**作者),1篇为中文核心期刊论文,1篇被CPCI-S检索。现为中国计算机学会专业会员。2018年6月入选“北京语言大学青年英才培养计划”。
-
蛤蟆先生去看心理医生
¥26.6¥38.0 -
世界尽头的咖啡馆
¥18.0¥45.0 -
咬文嚼字二百问
¥9.6¥32.0 -
《标点符号用法》解读
¥6.2¥15.0 -
从零开始的女性主义
¥30.3¥52.0 -
字海探源
¥23.4¥78.0 -
乡土中国
¥14.6¥26.0 -
与内心的恐惧对话:摆脱来自亲人的负能量
¥34.1¥48.0 -
你能写出好故事-写作的诀窍.大脑的奥秘.认知的陷阱
¥9.8¥32.8 -
中国人的精神
¥9.9¥29.0 -
社会学:原来这么有趣有用
¥9.1¥36.0 -
从白大褂到病号服:探索医疗中的人性落差
¥12.7¥39.8 -
焦虑心理学:不畏惧、不逃避,和压力做朋友
¥11.4¥38.0 -
理解生命
¥10.5¥32.8 -
始于极限:女性主义往复书简(八品)
¥22.4¥59.0 -
乌合之众:大众心理研究
¥12.1¥36.8 -
非暴力沟通心理学 : 用非暴力沟通化解冲突
¥9.0¥36.0 -
上大演讲录(1922-1927卷)(九品)
¥14.0¥52.0 -
那时的大学
¥8.4¥28.0 -
汉字王国
¥11.5¥46.0