《自然语言处理综论》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00
Categories: Tags:

词汇语义学

基于词汇语义学(lexical semantics)建立的词汇语义模型。

词位(lexeme):表示一个特定形式(正字的或音韵的)及其意义组成的数据对。

词表(lexicon):由有限个词位组成的表

词目(lemma)或引用形式(citation form):是用来表示词位的语法形式。

词形(wordforms):词的具体形式。

词形还原(lemmatization):从词形到词目的映射过程。

例如:sing, sang, sung 是三个词形,sing 是它们的词目。

词形还原的方法:形态分析算法(Ref:Ch3)

词义

词义(word sense)或含义:是单词特定意义侧面的离散表示,即表示单词意义的词位的一部分。

词的关系:同形关系(homonymy)、多义关系(polysemy)、同形(同音)异义词(homonyms)、同音异义(homophones)、同形异义(homographs)

同形关系:共享同一个发音和拼写的两个含义的关系。

多义关系:两个含义的语义相关的关系。

同音异义关系:具有相同的发音但是词目拼写不同的两个含义之间的关系。

同形异义关系:同一词目但是发音不同的两个含义之间的关系。

共轭搭配法(zeugma):通过将相反的含义结合在一起来证明某个词目拥有不同含义的方法。

字典中的词义比计算需要的词义更加细粒度,因此计算需要的词义会将字典中的词义进行分组和聚类。

字典中的词义存在着回环(circularity)问题,但是这些词义依然能够帮助人们理解查询的单词。

为了满足计算的需要,词义的定义方法:

  1. 类似于字典中的定义方法,通过目标含义与其他含义间的关系对其进行定义。如:WordNet 中定义的词义关系。
  2. 创建一个小规模的有限语义基元组,即意义的原子结构。主要用在定义事件意义时,如:语义角色。

含义间的关系

以下关系是含义间的关系,而不是词间关系。

同义关系(synonymy)

同义(synonyms):两个不同的词(词目)的两个含义相同或者几乎相同。

同义关系:如果两个词在任意一个句子中可以互相替换,并且不影响句子的真值条件,那么这两个词的关系就是同义关系。通常称这两个词有相同的命题意义(propositional
meaning)。

同义词是具有相同或者相似意义的词;反义词是具有相反意义的词。

反义关系(antonymy)

反义(antonyms):两个不同的词(词目)的两个含义是二元相反值或者位于某个尺度的两个相反的极点上,或者两个含义是完全可逆的,即描述某种反向的改变或者运动。

反义关系:除了相反的意义的某个方面,两个词共享着意义的几乎所有其他方面,因此它们具有非常相似的意义。

上下位关系(hypernymy)

上位词(hypernym,superordinate)与 下位词(hyponym)。

上位词是下位词的抽象,下位词是上位词的具体;

上位词是下位词的超类,下位词是上位词的子类;

上位词表示的类在外延上包含了下位词表示的类。

如果 A 中的所有对象都是 B 的对象,则称 A 蕴涵(entailment)了 B,即含义 A 是含义 B 的下位词。

本体(ontology)是指对单一领域或微世界(microworld)进行分析而获得的不同客体的集合。(Ref:Ch17)

分类体系(taxonomy)是指把本体知识体系中的元素排列成树状分类结构的一种特别方式。

分类体系是上下位关系的子类型。

语义场(semantic field)

部分——整体(part-whole)关系,称为整体部分关系(meronymy),包括:整体词(holonym)和部分词(meronym)。

同义关系、反义关系和上下位关系都是两个含义之间的二元关系。

语义场是一个针对某个特定领域所有词间的关系集合的更加综合、更加整体的模型。使用的工具有:框架、模型、脚本等。

FrameNet(框架网)提供了一个健壮的框架知识的计算资源。在 FrameNet 表示中,框架中的每个词都针对不同的框架定义,并且与框架中的其他词共享意义的各个方面。

WordNet:词汇关系信息库

同义集(synset,synonym set):一个义项的一组近乎同义词;

同义集是 WordNet 的重要的基础性成分。

WordNet 将概念表示为可以用来诠释概念的词义列表。

WordNet 中的根结点被称为独立起始概念(unique beginner)。

事件参与者

事件论元的两种语义约束:语义角色(semantic roles) 和 选择限制(selectional restrictions)。

题旨角色:特定的语义角色模型。

题旨角色(Thematic Roles)

深层角色特定于不同的事件。

题旨角色试图捕获不同词之间的语义共性。

参与者的题旨角色就是主题(theme)。

因素交替

题旨角色帮助泛化论元的不同表层实现。

动词支配的题旨角色论元组被称为题旨格(thematic grid)或者θ格或者格框架(case frame)。

多论元结构的实现被称为动词交替(verb alternations)或者因素交替(diathesis alternations)。

与格交替(dative alternations)与动词的特定语义类同时出现。

题旨角色存在的问题

基于抽象化具体题旨角色的广义语义角色(generalized semantic roles)。

两种基于语义角色的词汇资源为语义角色标注算法提供训练数据:

  1. 命题树库(PropBank)同时使用了原型角色(proto-roles)和动词特定的(verb-specific)语义角色。
  2. 框架网络(FrameNet)使用框架特定的(frame-specific)语义角色。

命题树库(The Proposition Bank,PropBank)

PropBank:标注了语义角色的句子的资源库。标记的是宾州树库(Penn Treebank)中的句子。

PropBank 中语义角色特定于动词;FrameNet 中的语义角色特定于框架。

框架网络(FrameNet)

框架是一个类似于脚本的结构,实例化一组称之为框架元素(frame elements)的特定于框架的语义角色。每个词唤起一个框架,并且描述及其元素的一些方面。

框架中的语义角色(即框架元素)包括:核心角色(core roles)和非核心角色(non-core roles)。

FrameNet 还编码了框架和框架元素间的关系。框架间可以彼此继承,不同框架的元素间的泛化关系也可以通过继承获得。框架间的其他关系,例如:因果关系,也同样被表示。

选择限制(selectional restrictions)

语义角色通过论元与谓词之间的关系来表示论元的语义。

选择限制是一种语义类型限制,表示一个动词对允许填充到它的论元角色的概念类别的限制。

使用事件表示来捕获选择限制的语义。

表示语义角色的选择限制的方法是使用 WordNet 的同义集而非逻辑概念。每个谓词指定 WordNet 的一个同义集作为每个论元的选择限制。如果填充语义角色的词是同义集的上位词,那么这个意义表示就是良构的。

基元分解

基元分解(primitive decomposition)或者成分分析(componential analysis)的模型在词义定义中的应用。基元分解可以状态和行为之间或使动与非使动谓词之间的相似性,但是需要依赖于先拥有的大量的谓词。由于难以提出表示所有可能意义的基元集合,所以语义基元在现有的计算机语言学工作中应用不多。

语义特征(semantic features):表示某种基元意义的符号。

概念依存(Conceptual Dependency,CD)是动词性谓词分解方法。

隐喻(metaphor)

隐喻:与借喻(metonymy)类似,即用意义来自完全不同领域的词或短语来提及或探讨另一个领域及其概念。

小结