Ch12 英语的形式语法
句法:是指把单词安排在一起的方法。
- Ch2,正则语言提供了一种表示单词符号串顺序的方法
- Ch4,介绍了怎样计算这些单词序列的概率
- Ch5,说明了词类范畴可以作为单词的等价类来讨论
本章的三个主要思想:
组成性 ( constituency ) :单词的组合可以具有如一个单独的单位或者短语那样的功能,这些的单词组合称为成分 ( constituent ) 。
- 名词短语 ( noun phrase, NP ) 的单词组合通常作为一个单位来使用
- 上下文无关语法 ( context-free
grammar, CFG ) 是形式化的语法,可以为这种组成性建立模型- CFG 是自然语言 ( 包括:计算机语言 ) 中的许多句法模型的设计基础
- CFG 是语法检查、对话理解、机器翻译等应用的重要组成部分
- CFG 能够表达句子中单词之间的复杂关系
- CFG 是许多计算机算法的开发基础
- PCFG 是将概率加入到上下文无关语法中,用于建立词义排歧模型 ( Ref: Ch14 )
语法关系 ( grammatical relations ) :是传统语法以及其他相关概念的形式化。
- 传统语法包括:主语 ( subjects ) 、宾语 ( objects ) 等等
「次范畴化」和「依存关系」描述的是单词和短语之间的某种关系
- 次范畴化 ( sub categorization )
- 例如:动词的次范畴化
- 依存关系 ( dependency
relation )
本章的两个重点:语法的形式化描述方法「上下文无关语法」和「依存语法」
12.1 组成性
名词短语,也叫名词词组 ( noun
group ) ,是包围着名词的单词序列,这个单词序列中至少含有一个名词。
判断短语组成性的根据:
- 短语可以出现在相同的句法环境中
- 例如:名词短语能够出现在动词之前。
- 短语的结构
- 前置 ( preposed ) 结构
- 后置 ( postposed ) 结构
12.2 上下文无关语法
上下文无关语法 ( context-free grammars ) ,又称为短语结构语法 ( phrase structure
grammar ) ,是用来模拟英语或者其他自然语言成分结构的 数学系统,它的形式化方法等价于 Backus-Naur 范式 ( Backus-Naur
Form, BNF ) 。
上下文无关语法的组成部分:
规则 ( rules ) 或者产生式 ( productions ) :表示语言中的符号的组成和排序方式
规则中的箭头 ( → ) 右边的项是一个或者多个终极符号和非终极符号构成的有序表
规则中的箭头 ( → ) 左边的项是一个单独的非终极符号,表示某种聚类或者概括性的符号
使用规则展开的序列称为单词符号串的一个推导 ( derivation )
- 推导一般使用剖析树 ( parse tree ) 来表示
单词和符号的词表 ( lexicon )
终极符号 ( terminal
symbols ) :与语言中的单词相对应的符号,词表是引入这些终极符号的规则的集合非终极符号 ( non-terminal
symbols ) :表示这些终极符号的聚类或者概括性的符号在词表中,同每个单词相关联的非终极符号是这些单词的词类范畴 ( Ref: Ch5 )
CFG 定义的形式语言是从指定的初始符号 ( start symbol ) 开始推导出来的符号串的集合。
- CFG 是一个生成句子的装置
- CFG 是一个对于给定的句子指派一个结构的装置
剖析树还可以使用括号表示 ( bracketed notation ) ,实质上是树的 LISP 表示法。
形式语言的符号串的集合。
如果一个句子可以被一个形式语法推导出来,那么就说这个句子处于由该语法定义的形式语言之中,即这个句子是合语法的 ( grammatical )
如果一个句子不可以被一个形式语法推导出来,那么就说这个句子不处于由该语法定义的形式语言之中,即这个句子是不合语法的 ( ungrammatical )
在语言学中,使用形式语言来模拟自然语言的语法称为生成语法 ( generative
grammar ) ,因为语言是通过由语法「生成」的一切可能的句子的集合来确定的。
12.2.1 上下文无关语法的形式定义
上下文无关语法的由 4 个参数 ( 4 元组 ) 进行形式定义:
- $N$:非终极符号的集合 ( 或者变量 )
- $\Sigma$ :终极符号的集合 ( 与 $N$ 不相交 )
- $R$:规则的集合或者生成式,每一个生成式的形式为 $A\rightarrow\beta$,其中 $A$ 是非终极符号,$\beta$ 是由符号串的无限集 $( \Sigma\cup N ) *$ 中的符号构成的符号串
- $S$:一个指定的初始符号
CFG 的符号规则定义:
- 非终极符号:大写字母 $A, B, S$
- 初始符号:$S$
- 终极符号串:小写罗马字母 $u,v,w$
- 从 $( \Sigma\cup N ) *$ 中推出的符号串:小写的希腊字母 $\alpha, \beta, \gamma$
语言通过的推导的概念来定义:
「直接推导」的定义:如果 $A\rightarrow\beta$ 是 $R$ 中的一个产生式,$\alpha$ 和 $\gamma$ 是 $( \Sigma\cup N ) *$ 中任意的符号串,那么就说: $\alpha A\gamma$ 直接推导出 $\alpha\beta\gamma$,即 $\alpha A\gamma \Rightarrow \alpha\beta\gamma$
「推导」的定义:设 $\alpha_1,\alpha_2,\cdots,\alpha_m$ 是 $( \Sigma\cup N ) *$ 中的符号串,$m \geqslant 1$,使得
$$
\alpha_1\Rightarrow\alpha_2,
\alpha_2\Rightarrow\alpha_3,
\cdots,
\alpha_{m-1}\Rightarrow\alpha_m
$$
那么就说:$\alpha_1$ 推导出 $\alpha_m$,即 $\alpha_1\dot{\Rightarrow}\alpha_m$语法 $G$ 生成的语言 $\mathfrak{L}_G={w| ( w\in\Sigma* ) \cap ( S\dot{\Rightarrow}w ) }$
把单词的符号串映射到剖析树的问题称为句法剖析 ( syntactic parsing ) 。 ( Ref: Ch13 )
12.3 英语的一些语法规则
12.3.1 句子一级的结构
英语中四种常见的句子结构:
陈述式结构 ( declarative structure ) :有一个主语名词短语,后面跟一个动词短语
命令式结构 ( imperative
structure ) :以一个动词短语开头,并且没有主语。常常用于表示命令和建议。yes-no 疑问式结构 ( yes-no questing
structure ) :以一个助动词开头,后面跟一个主语 NP 和一个 VP。常常用于提出疑问。wh 疑问式结构 ( wh-question structure ) :以一个 wh 疑问词 ( who, whose, when,
where, what, which, how,
why ) 开头,与其他两类句子一级的结构进行组合。是句子一级的结构中最为复杂的。wh 主语疑问式结构 ( wh-subject-question
structure ) :使用 wh 疑问词替换陈述式主语名词短语,后面与陈述式结构相同,wh 非主语疑问式结构 ( wh-non-subject-question
structure ) :以一个 wh 短语开头,但是这个 wh 短语不是主语,主语包含在句子中,句子结构与 yes-no 疑问式结构相同。
非主语疑问式结构包含着称为长距离依存 ( long-distance dependencies ) 关系
有些剖析模型中看成语义关系,名词会被看成动词的论元
有些剖析模型中看成句法关系,需要对语法进行修改,以便在动词之后插入一个小标记,这样的小标记称为踪迹 ( trace ) 或者空范畴 ( empty
category ) 。
12.3.2 句子和子句
基于完整性 ( complete ) 的概念将句子 ( sentence ) 和子句 ( clause ) 区分开来
- 「完整思想」:$S$ 是剖析树中的一个结点,在这个结点之下,$S$ 的主要动词具有它全部的论元
名词短语
( 本节主要关注「NP→Det Nominal 结构」的名词短语,因为这种名词短语的句法复杂性很高 )
英语中常用的三种名词短语:代词、专有名词、NP→Det Nominal 结构
NP→Det Nominal 结构
由中心语 ( head ) 和各种修饰语 ( modifiers ) 组成的。
中心语:名词短语中的中心名词 ( central noun )
修饰语:出现在中心名词的 前面 或者 后面
Det ( 限定词 ) :名词短语以简单的限定词 ( determiner ) 开头
- 限定词的角色可以使用更加复杂的表达语来填充。
- 表示
- 限定词的角色可以使用更加复杂的表达语来填充。
Nominal ( 名词性成分 ) :跟在限定词之后,包括任何的中心名词前修饰语 ( pre-head
noun modifiers ) 和中心名词后修饰语 ( post-head noun modifiers )中心名词前的成分:即中心名词前修饰语,在一个名词性成分中,有许多不同的词类可以出现在中心名词之前,它们是「后限定词」 ( postdeterminers )
基数词 ( cardinal numbers )
序数词 ( ordinal numbers )
数量修饰语 ( quantifiers )
形容词短语 ( Adjective Phrase, AP )
中心名词后的成分:即中心名词后修饰语 ( postmodifiers )
介词短语
非限定从句
动名词 ( -ing ) :以动名词形式 ( -ing ) 开头的动词短语所组成,在这个动词短语中的动词的后面,全都是介词短语
-ed 动词
不定式动词
关系从句:名词后关系从句,即限制性关系从句 ( restrictive relative
clause ) 是那些以关系代词 ( relative pronoun ) 为开头的从句。关系代词做嵌入动词的主语,即关系主语代词 ( subject relative )
关系代词做嵌入动词的宾语
名词短语前的成分
出现在 NP 之前,并且修饰 NP 的词称为前限定词 ( predeterminers ) 。大多是表示数目或者数量的单词,例如:all。
图 12-5: all the moring flights from Denver to Tampa leaving before 10
12.3.4 一致关系
英语中现在时态的两种形式:
用于第三人称单数 ( 3sg ) 主语的形式:一般以
-s
为结尾用于其他类型主语的形式
以名词为主语,后面跟动词的句子需要保持一致关系 ( agreement )
- 数 ( number ) 的一致关系:中心名词和修饰语在数方面的一致关系
- 单数 ( singular ) 与 复数 ( plural )
- 格 ( case ) 的一致关系:名词和代词在格方面的一致关系
- 主格 ( nominative ) 与 宾格 ( accusative )
- 性 ( gender ) 的一致关系:名词和形容词或者限定词有性方面的一致关系
使用特征结构 ( feature
structures ) 和合一 ( unification ) 来把语法中的每一个非终极符号参数化 ( parameterizing ) ,从而有效处理一致性问题,避免语法规模过大的问题。 ( Ref: Ch15 )
12.3.5 动词短语和次范畴化
动词短语 ( Verb Phrase, VP ) 的类型
- 「动词 + 句子」的规则:VP→Verb S
- 嵌入的句子称为句子补语 ( sentential complements ) 。
- 「动词 + 小品词」:小品词类似于介词,与动词合在一起构成了动词短语
传统语法的动词次范畴化 ( subcategorize,即「再分类」 ) :
及物动词 ( transitive ) :可以直接带宾语 NP
不及物动词 ( intransitive ) :不能直接带宾语 NP
把动词按补语进行次范畴化:
可以带 NP 补语
可以带不定式的 VP 补语
图 12-6:动词的次范畴化框架,即「动词 + 补语」的集合。
使用「谓词——论元」关系来讨论动词和其他成分的关系:
动词是逻辑谓词 ( predicate )
成分是谓词的逻辑论元 ( arguments )
使用上下文无关语法来表示动词和它的补语之间的一致关系特征。
- 因为一致关系导致的语法规则数目过大的问题,可以使用特征结构来解决。
12.3.6 助动词
动词的一个次类称为助动词 ( auxiliaries ) 或者辅助动词 ( helping
verbs ) 。
助动词具有特殊的句法约束,这种约束也可以看成是一种次范畴化。
助动词包括:
情态动词 ( modal verb ) :
完成式助动词 ( progressive auxiliary )
被动式助动词 ( passive auxiliary )
每一个助动词都会给它后面的动词形式一个约束,而且它们之间要按照一定的顺序进行结合。
情态动词给 VP 次范畴化时,VP 的中心动词是光杆动词
完成式助动词给 VP 次范畴化时,VP 的中心动词要用过去分词形式
进行式助动词给 VP 次范畴化时,VP 的中心动词要用动名词分词形式
被动式助动词给 VP 次范畴化时,VP 的中心动词要用过去分词形式
一个句子可以有多个助动词,需要遵循的顺序:
情态动词、<完成式助动词、<进行式助动词、<被动式助动词
12.3.7 并列关系
短语类型是使用连接词 ( conjunctions ) 结合在一起形成了一个更大的结构。
- 连接词构成的并列短语需要保持成分的组成性 ( consituency ) 。
- 使用语法的形式化方法元规则 ( metarules ) 来描述会更简洁。
12.4 树库
树库 ( treebank ) :经过句法标注的语料库。
树库中的句子隐含地构建了语言中的语法。
通过搜索树库可以找出特定语法现象的实例,从而进行语言学研究或者回答计算应用中的一些分析性问题。
- tgrep 和 TGrep2 是适用于树库搜索的工具,使用相似的语言来表示树的约束。
12.4.1 宾州树库
对其他语料库的句子建立的剖析树
使用踪迹 ( trace ) 来标记长距离依存关系 ( long-distance
dependencies ) 或者句法移位 ( syntactic movement ) 。增加了表示谓词和论元关系的信息
12.4.4 中心词与中心词的发现
中心词 ( head ) :句法成分可能与一个词汇的中心词相关联。例如:N 是 NP 的中心词,V 是 VP 的中心词。这是中心词驱动的短语结构语法。
在词汇的中心词的模型中,每一个上下文无关规则都与一个中心词相关联。中心词是短语中在语法上最为重要的词。中心词贯穿剖析,因此在剖析树中的每个非终极符号都可以用一个单独的单词来标注,这个单词就是词汇的中心词。
12.5 语法等价与范式
两个语法等价,即两个语法生成的符号串的集合相同:
强等价 ( strong
equivalence ) :两个语法生成相同的符号串集合,而且它们对于每个句子都指派同样的短语结构 ( 容许非终极符号的名字不同 )弱等价 ( weak
equivalence ) :两个语法生成相同的符号串集合,但是它们对于每个句子不能指派同样的短语结构
上下文无关语法都是 Chomsky 范式的 ( Chomsky Normal Form, CNF ) ,都是二叉的 ( binary
branching ) ,具有二叉树的形式,在 CKY 剖析算法中有用。 ( Ref: Ch13 )
任何上下文无关语法都可以转变成弱等价的 Chomsky 范式语法。
Chomsky 邻接规则 ( Chomsky-adjunction ) :使用形式为 $A\rightarrow A B$ 规则可以生成符号 $A$ 后面跟着无限个符号 $B$ 的序列。
12.6 有限状态语法和上下文无关语法
Ch2 :有限状态机器和正则表达式彼此是完全等价的,它们都称为正则语法,都可以用于描述正则语言。
- 正则语法的规则是上下文无关规则的一个受限形式,因为正则语法的规则具有右线性或者左线性的形式,因此不能表达递归的中心自嵌入 ( center-embedding ) 规则。
- 换言之,一种语言 L 能够被有限状态机器生成,当且仅当生成语言 L 的语法不具有任何的中心自嵌入递归形式。
在许多实际的应用中,句法规则和语义规则是不需要完全匹配的,有限状态规则可以自动地构造一个正则语法,使得它与给定的上下文无关语法近似就可以了。
12.7 依存语法
依存语法 ( dependency
grammar ) :句子的句法结构完全由单词以及这些单词之间的二元语义或者句法关系来描写的。
基于依存语法剖析句子的依存剖析结果:有标记的依存剖析
- 基于依存的计算语法:链语法,使用了不同的但是大致交叠的链接。
Ch14:依存语法的形式化方法的优点:
对于单词及其依存关系有着预示分析能力。
能能力处理具有相对自由词序的语言
12.7.1 依存剖析与中心词之间的关系
( Ref: Ch14 词汇化剖析, Ch15 中心词特征和次范畴化 )
使用中心词规则,一个无标记的依存图可以自动地由上下文无关的剖析树推导出来,算法如下:
- 使用中心词渗透表,标示出短语结构树中每一个结点的中心词儿子结点
- 在依存结构中,把每一个非中心词儿子结点的中心词依存到中心词儿子结点的中心词上
12.7.2 范畴语法
范畴语法 ( category grammar ) :是词汇化语法模型。
范畴语法的扩充:组合范畴语法 ( combinatory categorical grammar, CCG ) 。
范畴语法的两个组成部分:
范畴词表 ( category lexicon ) :把每个单词与一个句法语义范畴联系起来
组成规则 ( combinatory rules ) :把函数与论元结合起来
范畴的两种类型:
函子 ( functors ) :动词和限定词是函子。
论元 ( argument ) :名词是论元。
12.8 口语的句法
口语的单位:一般是话段 ( utterance ) ,而不是句子 ( sentence ) 。
12.8.1 口语的不流畅现象 与 口语修正
口语的「不流畅现象」是口语和书面语在句法特征方面最明显的区别。
12.8.2 口语树库
Switchboard 的口语语料库的库使用增强的标记来处理不流畅的口语语言现象。
12.9 人的语法处理
组成性 ( constituency ) 不是建立在特定单词的基础之上的。
12.10 小结
上下文无关语法,也称为短语结构语法
可以为前后相续的单词的组合形式建模,这种组合功能就像一个组或者一个成分
是由一套规则或者一套产生式组成的,这些规则是基于非终极符号的集合和终极符号的集合上进行表示
生成语法是形式语言中的一个传统名称,用于给自然语言的语法建立模型
英语中,句子一级有四种常见的语法结构
陈述式结构
命令式结构
yes-no 疑问式结构
wh 疑问式结构
英语的名词短语中
中心语名词前面的修饰成分
限定词
数词
数量修饰语
形容词短语
中心语名词后面的修饰成分
动名词 VP
不定式 VP
过去分词 VP
英语中的主语与主要动词在人称和数方面保持一致关系
动词可以根据它所期望的补语的类型来进行次范畴化
及物动词
不及物动词
英语口语中,句子的连接一般称为话段。语段可能是不流畅的:
有声停顿
再开始
修正
由经过剖析的树可以建造树库,树库可以使用树搜索工具进行搜索
任何的上下文无关语法都可以转变为 Chomsky 范式,在 Chomsky 范式中每个规则的右手边可能是两个非终极符号,也可能是一个终极符号
上下文无关语法比有限状态语法表达能力更强,但是有限状态语法可以使用 FSA 来近似地表示上下文无关语法
在人的语言处理中,组成性起着重要的作用。