《自然语言处理综论》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00
Categories: Tags:

Ch03 词 与 转录机

正词法规则(orthographic rules)

形态规则(morphological rules)

形态剖析(morphological parsing):把单词剖析为多个词素

剖析产生的结果可以是形态结构、句法结构、语义结构或者话语结构

剖析产生的形式可以是符号串、树或者网络

词干还原(stemming)、词目还原(lemmatization)、词例还原(tokenization)或者单词切分(word segmentation)

计算两个单词在正记法上的相似度:

形态剖析计算相似度;最小编辑距离计算相似度。

英语形态学概观

形态学:是研究语素(小的意义单位)构成词的方法。

语素(morpheme):是语言中负荷意义最小的单位。分为词干(stem)和词缀(affix)。

词缀包括:

语素构成单词的四种方法:

屈折形态学(inflectional morphology)

英语的屈折系统相对简单:只有名词、动词和部分形容词有屈折变化,可能的屈折词缀的数目也相对较少。屈折的能产性(productive)比较高。

英语名词的屈折变化:

英语动词分类:

英语动词的屈折变化:

派生形态学(derivational morphology)

英语的派生系统相对复杂:通过对动词和形容词的变化产生名词,即名词化(nominalization)。派生的能产性比较低。

附着(cliticization)

附着成分是处于词缀和单词之间的语言单位。位于单词前面的附着成分称为前附着成分(proclitics),跟在单词后面的附着成分称为后附着成分(enclitics)。

附着成分的音系学功能相当于词缀,一般比较短,也没有重读。

附着成分的句法功能更像一个单词,作用经常相当于代词、冠词、连接词或者动词。

非毗连形态学

毗连形态学(concatenative morphology):单词是由彼此毗连的语素构成的符号串。

非毗连形态学(non-concatenative morphology),也称为模板形态学(template morphology)或者词根与模式形态学(root-and-pattern morphology)。

一致关系(agreement)

数的一致,性的一致。

有限状态形态剖析

形态剖析器:

有限状态词表的建造

计算机词表的构造:

形态识别(morphological recognition)问题:使用 FSA 判断由字母构成的输入符号串是否合法。

有限状态转录机(FST)

有限状态转录机(Finite-State
Transducer,FST):用来进行两个层之间的映射的自动机,即可以进行两个符号集合之间的映射的有限自动机。

FST 的用途:

FST 需要 7 个参数定义:

FSA 与正则语言同构(isomorphic),FST 与正则关系(regular relation)同构。

正则关系是符号串偶对的集合,作为符号串集合的正则语言的自然扩充。

定序转录机和确定性

定序转录机(sequential transducer):是转录机的一个次类,输入是确定的。

后继转录机(subsequential transducer)是定序转录机的泛化。

p- 后继转录机(p-subsequential transducer):是后继转录机的泛化。

用于形态剖析的有限状态转录机

有限状态形态学(finite-state morphology)的范式(paradigm),把一个单词表示为词汇层(lexical level)和表层(surface level)之间的对应。

转录机和正词法规则

使用正词法规则来处理英语中在语素边界发生拼写变化的问题。

正词法规则可以在转录机上实现。

结合有限状态转录机的词表与规则

把转录机的词表和规则结合起来进行剖析和生成。

双层形态学结构,即能用于剖析,也能用于生成。

词表转录机把表示词干和形态特征的词汇层面映射于表示语素简单毗连的中间层面。

若干个正词法转录机并行地运行各种不同的拼写规则。

有限状态转录机从词汇带子生成表层带子时,或者从表层带子剖析词汇带子时,都可以使用带有同样状态序列的同样的层叠式转录机。

剖析比生成要复杂一些,因为在剖析中存在歧义的问题,而排歧需要某些外部的证据。

运行层叠式转录机时,可以通过组合(composing)和交合(intersecting)转录机的方式使之更加有效。

Porter 词干处理器(不使用词表)

形态剖析的标准算法:使用词表加规则的方法来建立转录机。缺点是需要大规模的联机词表。

Porter 词干处理器是相对简单的算法,可以应用于信息检索中。(Ref:Ch23)

单词和句子的词例还原

词例还原(tokenization):把文本切分成单词和句子。

中文的自动切词

中文切分算法:最大匹配算法(maximum
matching,maxmatch),是一种贪心搜索算法,作为基准算法,需要配备一部语言的词典(词表)。缺陷在处理未知词或者未知组合时。

拼写错误的检查与更正

拼写错误更正的标准算法是概率算法。

拼写错误的检查和更正分解为三大问题:

有限状态形态剖析器提供了实现大规模词典的技术手段。对于每个单词都可以给出形态剖析,因此 FST 剖析器在本质上就是单词的识别器。如果使用投影操作把 FST 下侧的语言图抽取出来,那么 FST 形态剖析器就可以转化为有效的 FSA 单词识别器。FST 词典就会表示那些能产性的形态变化。

最小编辑距离算法用于计算来源和表层错误之间的距离。

最小编辑距离(minimum edit distance)

字符串距离(string
distance):两个符号串之间的距离是这两个符号串彼此相似程度的度量。

最小编辑距离是符号串距离算法的基础,说明了两个符号串之间对齐的情况。

Levenshtein 距离是加权的最小编辑距离。

最小编辑距离使用动态规划进行计算。

最小编辑距离算法可以用来做两个符号串之间的最小代价对齐(alignment)。

人的形态处理方式

完全枚举法(full
listing):假定人的心理词表中,不管单词内部形态结构如何,只会把语言中的全部单词都一一枚举出来。形态结构只是一种没有因果关系的现象。

最小羡余法(minimum
redundancy):假定人的心理词表中,只表示那些有组合能力的语素,因此当处理单词中必须把与单词相关的所有语素组成起来。

3.13 小结