- ISBN:9787030727831
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:388
- 出版时间:2022-08-01
- 条形码:9787030727831 ; 978-7-03-072783-1
内容简介
借助大规模真实语料探究人类语言的本质规律及其机制,是数智时代语言学家的主要任务之一。本书精选了笔者近年来的研究成果,较为系统、全面地展示了以大规模依存树库为基础,围绕语言的线性结构和网络结构对语言这一“人驱复杂适应系统”所做的探索,其中包括已在相关领域得到广泛认可的“依存距离*小化”和“依存方向连续统”等。全书内容丰富、结构明晰、友好易读,较好地回答了“什么是数据驱动的语言研究”、“为什么要开展相关研究”,以及“应该如何开展”等问题。 本书不仅适合作为语言学相关专业的教学用书,也可作为人工智能、自然语言处理、认知科学、网络科学等领域研究者的参考读物。
目录
从无序中寻找有序
写在前面的话
依存关系计量研究
**章 依存距离和依存方向 3
**节 依存关系的基本概念 3
第二节 依存距离作为衡量语言理解难度的计量指标 10
第三节 依存方向作为面向语序类型研究的计量指标 26
第二章 影响依存距离和依存方向的因素 39
**节 句长 39
第二节 语体 52
第三节 标注方式 63
第三章 依存距离*小化及其形成机理 83
**节 汉语依存距离的概率分布 83
第二节 30种语言的依存距离分布规律 90
第三节 交叉依存与依存距离的关系 103
第四节 组块在降低自然语言句法复杂度中的作用 113
第四章 依存结构的计量特征及其应用 124
**节 汉语句法及类型特征 124
第二节 依存距离*小化与汉语的“VP+N1+的+N2”结构 131
第三节 罗曼语族语言的类型特征 136
第四节 依存距离和动态配价 145
第五节 依存结构层级的分布规律 159
第六节 依存距离与层级距离 166
第七节 依存结构树句长、树宽、树高之间的协同关系 174
语言复杂网络研究
第五章 语言网络的整体特征 187
**节 语言是一个复杂网络 187
第二节 汉语句法网络的复杂性 201
第三节 汉语语义网络的复杂性 208
第四节 汉语音素网络的复杂性 215
第六章 现代汉语多层级复杂网络研究 224
**节 引言 224
第二节 汉语多层级网络的构建 226
第三节 汉语四个层级网络的复杂性特征 230
第四节 从复杂网络参数看汉语层级结构特点 234
第七章 语言网络的局部特征 240
**节 句法在语言网络中的作用 240
第二节 汉语句法网络的中心节点 243
第三节 局部句法结构与网络整体特征的关系 253
第八章 语言网络应用研究 265
**节 基于语言网络的语言分类 265
第二节 句法网络与语言的形态复杂度 276
第三节 词同现语言网络与斯拉夫语族语言分类 285
第四节 基于句法网络和语义网络的语体分类 292
第五节 复杂网络视角的翻译研究 300
参考文献 306
附录一 从依存距离到语言学交叉学科研究 328
附录二 大数据时代的语言研究 338
附录三 数智时代的(应用)语言学杂谈 356
附录四 语言学理论研究如何应对智能时代的挑战 368
写在后面的话 382
节选
依存关系计量研究 **章 依存距离和依存方向 **节 依存关系的基本概念 依存语法的基本要素是依存关系(刘海涛,2009; Tesnière,1959; Hudson,2010)。(句法)依存关系具有以下基本属性: (1)它是两个词之间的二元关系; (2)它通常是不对称的,在构成依存关系的两个词中,一个是支配词,另一个是从属词; (3)它是有标记的。 基于这三种属性,我们可以构建一个句法依存树或有向依存图来表示句子的句法结构。在本书中,我们一般使用有向非循环图来表示句子的依存结构。图1-1为汉语句子“他有三本书”的依存句法分析。 图1-1 句子“他有三本书”的依存句法结构有向图 从图1-1可以看出,句子中的所有单词都由句法依存关系连接在了一起。例如,在这个句子中,“他”(代词,r)通过 subj(主语)和“有”(动词,v)形成一个依存关系,“有”也与“书”(名词, n)形成了 obj(宾语)的依存关系。构成依存关系的两个词之间用带有箭头的弧线连接,连接弧从支配词指向从属词。在一个句子中,只有一个词没有支配词,其他词都有支配词。 主语和宾语依存于主动词,而介词(图1-1中没有举例说明)依存于它们所修饰的名词或动词。在每对连接的词语中,一个被称为从属词,另一个被称为支配词。标记弧从支配词指向从属词。 为了便于计算机处理图1-1中的句法信息,我们一般将依存句法图或树转换成表1-1的形式。 表1-1 句子“他有三本书”的句法分析 在表1-1中,每一行都清楚地表示了一个依存关系的构成要素,包括从属词、支配词、依存类型,以及词语在句中的位置信息。 值得注意的是,与传统的依存结构表示不同,图1-1、表1-1均包含词语在句子中的位置信息。这样做的原因主要是传统依存句法结构图大多是作为一种句子理解的结果而存在的,而现代的依存句法图除具备原有的表征功能之外,也是计算机处理自然语言的重要知识源,因此,需要更多有关词语位置的信息,以便获得更可靠的句子理解模型。 从依存结构图作为自然语言处理知识源的角度看,只有一个句子显然是不够的。因此,从20世纪90年代开始,世界上许多国家都兴起了采用依存句法标注自然语料的热潮。Witkam(2005:93)把这种现象称为“Francaj arboj revivas, usonaj seki.as”(法国树正在重生,美国树正在干枯)。从短语结构转向依存结构的原因,可能是“ PSG(短语结构—笔者注)树好比牛顿的经典力学, DG(依存结构—笔者注)图好比爱因斯坦的相对论。后者涵盖并升华了前者”(李维、郭进,2020:120)。 如果一个经过句法分析或标注的句子会形成一个如图1-1的图(树),那么多个句子就会形成多个图(树)。一个含有成千上万个句子的语料库,经过句法标注,就会形成一个句法结构树的仓库,这就是“树库”(treebank)这个词的由来。树库是现代计算语言学研究中的重要语言资源。例如,由全世界众多语言学家与自然语言处理研究者联合推出的 UD语言资源项目的昀新版本(2.9版本)(Nivre et al.,2016,2020)已包括122种语言的217个依存句法标注树库。 当然,这些资源理论上也有益于语言学家从真实的语料中发现语言系统的运作规律,有助于应对语言研究从“花园”走向“灌木丛”时遇到的昀大挑战—人类语言的概率性问题。但是,开展数据驱动的语言研究只有数据是不够的,我们首先需要寻找可以用数据解决的语言学问题,并需要可以用来解决这些问题的可操作与可计量的指标,还需要挖掘这些指标与人类语言结构模式与演化规律之间的联系。只有这样,我们所发现的语言规律和有关语言的知识才会更可靠,也才能更好地服务于那些需要语言规律的学科,进而构拟21世纪的语言理论。 为了方便后续讨论,我们先对依存结构图进行一个简要的形式描述。 一、依存结构图的形式化和随机语言 语言 L中的一个句子 S可以看作是若干个词语的有序序列。设句子的长度(即句子中包含的词语个数)为 n(n.1),则句子 S可以表示为一个 n元组: 其中, x(1. in)表示句子的第 i个词语;相应地, i被称为词语 xi在句子S中的词序。 对句子 S进行依存句法分析后,可以得到如图1-1的依存句法结构图。句子S的依存结构图与三个因素有关:①每一个位置上的词语;②词语类型(Part of Speech,POS);③词语之间的依存关系,包括支配词、从属词和依存关系。前两个因素可视为关于词序的函数,后一个因素可视为关于词序的二元有序对的函数。在语言 L中,当给定一种依存句法体系之后,该语言的词语表、词语类型表和依存关系表都随之固定了,并不会随着所分析句子的不同而变化。每当给定一个句子 S xx 12.xn,句子中的各个词语及其相对位置便确定了,于是词语可以看作是词序的一元函数: 经过词法分析可以得到该句子的词语类型序列(POS 1,POS 2,.,POSn),于是词语类型也可以看作是词序的一元函数: 词语之间的依存关系则可以归结为若干个具有如下形式的有序三元组: 。 其中,依存关系的名称 rnameij完全可以由支配词序号 i和从属词序号 j来确定。因此,依存关系的名称可被认为是关于二元有序对的一元函数: 基于此,我们可以给出语言 L中句子的依存结构图的形式描述。在语言 L中给定一个长度为的句子 S,它的依存结构图是一个满足一定条件的有向图DVEf(,,word ftag frelation ): 其中,集合W、T和R只与语言 L及其依存句法体系有关,与具体句子无关,因此,它们不是依存结构图的构成要素。如果我们的目的只是考察依存结构图的形式特征,那么,唯一需要考察的就是哪些位置上的词语之间存在依存关系,这只需要在集合 V上来考察其边集 E的性质即可。 D是依存结构图,当且仅当其边集 E满足如下条件(1)~(4)(Mel’cuk,1988;Nivre,2006)。 (1)单支配词(single-governor): 即每一个词的支配词至多有一个且不能是自身。 (2)单根(single-root): 即一个句子的依存结构图有且只有一个根。我们把满足这个条件的唯一的 x记为
作者简介
刘海涛,国际世界语学院院士,教育部“长江学者”特聘教授,国务院政府特殊津贴获得者。浙江大学求是特聘教授,博士生导师;广东外语外贸大学云山领军学者,北京语言大学特聘教授。两次获省优秀博士论文指导教师称号,国内外多种语言学出版物的编委会成员。连续八年入选爱思唯尔“中国高被引学者”榜单。用多种语言在数十种文、理、工出版物发表过涉及数十种人类语言的成果300余篇(部),被WOS核心库收录100多篇,多篇论文入选ESI热点论文与高被引论文。12项成果获教育部与省级社科奖。
-
饥饿、富裕与道德
¥14.0¥45.0 -
偏见
¥17.9¥56.0 -
世界尽头的咖啡馆
¥15.8¥45.0 -
从白大褂到病号服:探索医疗中的人性落差
¥14.7¥39.8 -
女性生存战争
¥19.8¥66.0 -
汉字王国
¥13.8¥46.0 -
非暴力沟通心理学 : 用非暴力沟通化解冲突
¥10.8¥36.0 -
咬文嚼字二百问
¥12.2¥32.0 -
乌合之众:群体心理研究
¥13.9¥39.8 -
健康鸿沟:来自不平等世界的挑战
¥16.5¥55.0 -
万物皆无序
¥16.4¥42.0 -
乌合之众:大众心理研究
¥11.0¥36.8 -
自卑与超越
¥14.7¥39.8 -
乡土中国
¥12.2¥26.0 -
字海探源
¥25.0¥78.0 -
理解人性
¥13.9¥39.8 -
后现代下的生命与多重时间(精装)
¥19.8¥66.0 -
人际交往心理学
¥11.4¥38.0 -
猎物人(八品)
¥23.8¥88.0 -
社会学:原来这么有趣有用
¥9.0¥36.0