《自然语言处理综论》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00
Categories: Tags:

Ch12 英语的形式语法

句法:是指把单词安排在一起的方法。

本章的三个主要思想:

本章的两个重点:语法的形式化描述方法「上下文无关语法」和「依存语法」

12.1 组成性

名词短语,也叫名词词组 ( noun
group ) ,是包围着名词的单词序列,这个单词序列中至少含有一个名词。

判断短语组成性的根据:

12.2 上下文无关语法

上下文无关语法 ( context-free grammars ) ,又称为短语结构语法 ( phrase structure
grammar ) ,是用来模拟英语或者其他自然语言成分结构的 数学系统,它的形式化方法等价于 Backus-Naur 范式 ( Backus-Naur
Form, BNF ) 。

上下文无关语法的组成部分:

CFG 定义的形式语言是从指定的初始符号 ( start symbol ) 开始推导出来的符号串的集合。

剖析树还可以使用括号表示 ( bracketed notation ) ,实质上是树的 LISP 表示法。

形式语言的符号串的集合。

在语言学中,使用形式语言来模拟自然语言的语法称为生成语法 ( generative
grammar ) ,因为语言是通过由语法「生成」的一切可能的句子的集合来确定的。

12.2.1 上下文无关语法的形式定义

上下文无关语法的由 4 个参数 ( 4 元组 ) 进行形式定义:

CFG 的符号规则定义:

语言通过的推导的概念来定义:

把单词的符号串映射到剖析树的问题称为句法剖析 ( syntactic parsing ) 。 ( Ref: Ch13 )

12.3 英语的一些语法规则

12.3.1 句子一级的结构

英语中四种常见的句子结构:

非主语疑问式结构包含着称为长距离依存 ( long-distance dependencies ) 关系

12.3.2 句子和子句

基于完整性 ( complete ) 的概念将句子 ( sentence ) 和子句 ( clause ) 区分开来

名词短语

( 本节主要关注「NP→Det Nominal 结构」的名词短语,因为这种名词短语的句法复杂性很高 )

英语中常用的三种名词短语:代词、专有名词、NP→Det Nominal 结构

NP→Det Nominal 结构

由中心语 ( head ) 和各种修饰语 ( modifiers ) 组成的。

名词短语前的成分

出现在 NP 之前,并且修饰 NP 的词称为前限定词 ( predeterminers ) 。大多是表示数目或者数量的单词,例如:all。

图 12-5: all the moring flights from Denver to Tampa leaving before 10

12.3.4 一致关系

英语中现在时态的两种形式:

以名词为主语,后面跟动词的句子需要保持一致关系 ( agreement )

使用特征结构 ( feature
structures ) 和合一 ( unification ) 来把语法中的每一个非终极符号参数化 ( parameterizing ) ,从而有效处理一致性问题,避免语法规模过大的问题。 ( Ref: Ch15 )

12.3.5 动词短语和次范畴化

动词短语 ( Verb Phrase, VP ) 的类型

传统语法的动词次范畴化 ( subcategorize,即「再分类」 ) :

把动词按补语进行次范畴化:

图 12-6:动词的次范畴化框架,即「动词 + 补语」的集合。

使用「谓词——论元」关系来讨论动词和其他成分的关系:

使用上下文无关语法来表示动词和它的补语之间的一致关系特征。

12.3.6 助动词

动词的一个次类称为助动词 ( auxiliaries ) 或者辅助动词 ( helping
verbs ) 。

助动词具有特殊的句法约束,这种约束也可以看成是一种次范畴化。

助动词包括:

每一个助动词都会给它后面的动词形式一个约束,而且它们之间要按照一定的顺序进行结合。

一个句子可以有多个助动词,需要遵循的顺序:

情态动词、<完成式助动词、<进行式助动词、<被动式助动词

12.3.7 并列关系

短语类型是使用连接词 ( conjunctions ) 结合在一起形成了一个更大的结构。

12.4 树库

树库 ( treebank ) :经过句法标注的语料库。

12.4.1 宾州树库

12.4.4 中心词与中心词的发现

中心词 ( head ) :句法成分可能与一个词汇的中心词相关联。例如:N 是 NP 的中心词,V 是 VP 的中心词。这是中心词驱动的短语结构语法。

在词汇的中心词的模型中,每一个上下文无关规则都与一个中心词相关联。中心词是短语中在语法上最为重要的词。中心词贯穿剖析,因此在剖析树中的每个非终极符号都可以用一个单独的单词来标注,这个单词就是词汇的中心词。

12.5 语法等价与范式

两个语法等价,即两个语法生成的符号串的集合相同:

上下文无关语法都是 Chomsky 范式的 ( Chomsky Normal Form, CNF ) ,都是二叉的 ( binary
branching ) ,具有二叉树的形式,在 CKY 剖析算法中有用。 ( Ref: Ch13 )

任何上下文无关语法都可以转变成弱等价的 Chomsky 范式语法。

Chomsky 邻接规则 ( Chomsky-adjunction ) :使用形式为 $A\rightarrow A B$ 规则可以生成符号 $A$ 后面跟着无限个符号 $B$ 的序列。

12.6 有限状态语法和上下文无关语法

Ch2 :有限状态机器和正则表达式彼此是完全等价的,它们都称为正则语法,都可以用于描述正则语言。

在许多实际的应用中,句法规则和语义规则是不需要完全匹配的,有限状态规则可以自动地构造一个正则语法,使得它与给定的上下文无关语法近似就可以了。

12.7 依存语法

依存语法 ( dependency
grammar ) :句子的句法结构完全由单词以及这些单词之间的二元语义或者句法关系来描写的。

基于依存语法剖析句子的依存剖析结果:有标记的依存剖析

Ch14:依存语法的形式化方法的优点:

12.7.1 依存剖析与中心词之间的关系

( Ref: Ch14 词汇化剖析, Ch15 中心词特征和次范畴化 )

使用中心词规则,一个无标记的依存图可以自动地由上下文无关的剖析树推导出来,算法如下:

  1. 使用中心词渗透表,标示出短语结构树中每一个结点的中心词儿子结点
  2. 在依存结构中,把每一个非中心词儿子结点的中心词依存到中心词儿子结点的中心词上

12.7.2 范畴语法

范畴语法 ( category grammar ) :是词汇化语法模型。

范畴语法的扩充:组合范畴语法 ( combinatory categorical grammar, CCG ) 。

范畴语法的两个组成部分:

范畴的两种类型:

12.8 口语的句法

口语的单位:一般是话段 ( utterance ) ,而不是句子 ( sentence ) 。

12.8.1 口语的不流畅现象 与 口语修正

口语的「不流畅现象」是口语和书面语在句法特征方面最明显的区别。

12.8.2 口语树库

Switchboard 的口语语料库的库使用增强的标记来处理不流畅的口语语言现象。

12.9 人的语法处理

组成性 ( constituency ) 不是建立在特定单词的基础之上的。

12.10 小结