《自然语言处理综论》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00
Categories: Tags:

计算话语学

话语(discourse):由搭配在一起、具有一定结构并且连贯(coherent)的句子群组成的。

话语的类型:

指代消解(Reference Resolution):决定代词以及其他名词短语指代的内容。

连贯关系(coherence relations):决定话语中句子间的连贯结构。连贯话语中的句子之间必须有语义上的联系。

基于实体的一致性(entity-based coherence)是一种连贯性,说明连贯的话语与涉及在话语中实体之间必须表现出一定的关系。

话语结构:简单话语分割(discourse segmentation)和连贯性关系(coherence relation)。

简单话语分割:就是把一篇文档分割成线性序列的多个段落的篇章。

篇章→关系→实体。

话语分割

话语分割(discourse segmentation):把一篇文档切分成一个线性的子主题序列。

使用内聚机制寻找话语结构。

无监督话语分割

线性分割(linear segmentation):把文本分割成多个多段单元的任务,其中每个单元表示原谅中的一个子主题或者段落。

内聚性(cohesioin):是指用一定的语言学手段将文本单元联系或者连接在一起。

词汇内聚性(lexical cohesion):是指两个语言单元中基于词语音关系列表现出来的内聚性。

非词汇内聚性:例如,使用回指(anaphora),也称指代或者首语重复。

内聚链:通过相关词语的一个序列表现出来的内聚性。

内聚性(cohesion)与连贯性(coherence)的区别。

线性话语分割的无监督算法基于内聚性。基于内聚性的分割算法的都是同一个子主题中的句子或者段落之间具有内聚性,而相邻的子主题之间的段落则没有这种内聚性。因此,度量内聚性时希望子主题内部的内聚性强,邻近子主题的内聚性弱。

基于内聚性的算法:TextTilling 有三个部分

有监督话语分割

基于多种分类器完成有监督话语分割。

特征:无监督分类特征的超集(内聚性特征、词语重叠度、词语的余弦距离、LSA、词汇链、共指等等)

话语标记(discourse markers)或提示词(cue word):表现话语结构的词语或者短语。

话语标记是领域特定的,可以利用手写规则或者正则表达式去确定特定领域的话语标志。在话语分割的预处理阶段需要进行命名实体识别,

话语分割的评价

WindowDiff 通过在系统输出的分割上滑动一个探测器,即大小为 k 的滑动窗口,来对自动标注的边界和人工标注的边界进行比较。

因为准确率、召回率以及 F 值对分割边界的距离误差不敏感,因此不使用它们来评价分割算法。

文本连贯性

连贯关系(coherence relations):话语的话段之间所有可能的连接

结果(Result):推测 A 声明的状态或者事件导致了 B 声明的状态或者事件。

说明(Explanation):推测 B 声明的状态或者事件导致了 A 声明的状态或者事件。

平行(Parallel):推测 A 声明的和推测 B 声明的都是类似的。

细化(Elaboration):推测 A 声明和推测 B 声明的是同一个命题。

时机(Occasion):推测从 A 声明的状态到 B 声明的最终状态的状态变化,或者推测从 B 声明的状态到 A 声明的最初状态的状态变化。

树中每个结点代表一组局部连贯的从句或者句子,称之为话语片断(discourse
segment)。

修辞结构理论

修辞结构理论(Rhetorical Structure Theory,RST):是连贯关系理论中的一种,是一种文本组织模型,应用在文本生成领域。包含了 23 种修辞关系,用于表示话语中不同跨度的文本之间的关系。大部分修辞关系保持在两个文本跨度之间,一个作为核心(nucleus),一个作为外围(satellite)。核心是更接近作者意图的并且能够独立解释的单元,外围是离作者意图远些并且通常需要和对应的核心一起解释。

在证据关系(Evidence),外围为核心表述的观点或情况提供证据。

RST 关系:

自动连贯指派

连贯关系指派(coherence relation assignment):给定一个句子串,自动确定句子之间的连贯关系。

话语分析(discourse parsing):抽取能够表示整个话语的树或图。

基于提示短语(cue phrases)的浅层算法。

  1. 识别文本中的提示短语。
    • 提示短语(cue phrase),或者话语标志(discourse marker),或者提示词(cue word)是能够指示话语结构的词或者短语,特别是能够把话语片段联系在一起。
    • 连接语(connectives)是一种提示短语,通常是连词或者副词,提供了两个片段之间存在的连贯关系的线索。
  2. 基于提示短语把文本分割成话语片断。
    • 话语片断的大小是从句或者类似从句的单元。
    • 基于单个提示短语手工编写分割规则。
    • 利用句法分析器,可以利用句法短语制定更加复杂的分割规则。
  3. 利用提示短语对连续话语片段间的关系进行分类。
    • 为话语标志撰写规则,但是注意提示短语的歧义性带来的问题
    • 使用自举法对大规模语料进行连贯关系自动标注,从而满足训练分类器需要的大量数据。
    • 使用正则表达式抽取包围提示短语的话语片段对,然后移除提示短语。最终的句子对不带有提示短语,就可以用于抽取连贯关系的监督训练集。

基于溯因推理(abduction)的算法。

指代消解

指代消解(reference resolution):决定哪些实体被哪些语言表述所指代。

提示语(referring expression):用于实现指代的自然语言表达。

所指对象(referent):指向的实体。

共指(corefer):两个指示语用于指向同样的实体。

先行词(antecedent):以一种方式准许使用另一个提示语。

复指(anaphora)或者回指:提及一个先前已经被引入话语的实体。使用的指示语是复指语(anaphoric)。

指向实体的方式依赖于实施的话语上下文(discourse context),还依赖于话语的情境上下文(situational context)。

话语模型(discourse model):具有特定地位的信念子集形成了听话人对正在进行的话语的心理模型,包括本话语中所指向实体的表示以及它们参与的关系。

指代消解系统的两个部分:

话语模型的两个基本操作:

指代消解的两种任务:

指代现象

指示语的五种类型

  1. 不定名词短语(indefinite noun phrase):不定所指将一个新的实体引入了话语环境。
  2. 有定名词短语(definite noun phrase):指示对象可以确认的实体。
    1. 实体在文本中已经被提起,并且也被表示于话语模型中
    2. 实体包含在听话人关于世界的信念集中
    3. 实体本身的描述就包含了唯一性。
  3. 代词(Pronoun):使用代词的所指相比有定名词短语受到更强的约束,要求在话语模型中所指对象具有高度的活力或者显著性。代词指示的实体被引入的位置相比有定名词短语的要近。
    1. 代词也可以参与提前指代(cataphora),即在代词所指对象出现之前就提及代词。
  4. 指示代词(Demonstrative):即可以单独出现,也可以作为限定词。
    1. “this”是近端指示词(proximal demonstrative):表示文字上或者隐喻上比较接近;
    2. “that”是远端指示词(distal demonstrative):表示文字上或者隐喻上相隔较远(例如:时间上相隔较远)
  5. 名字(Names):包括人名、机构名和地名。在话语中名字可以用来指代新的或者旧的实体。

信息状态

相同的指示语(如许多不定名词短语)能够用来表示新的指示对象,其他的指示语(如许多确定名词短语)可以用来指向旧的所指对象。

信息状态(information status)或信息结构(information structure):对不同所指形式提供新的或者旧的信息的方式。

话语中不同各类的所指形式和所指对象的信息度或者显著性之间的关系:

指示语形式和信息状态之间的关系:

代词回指消解所使用的特征

给定代词及代词前面的上下文,从上下文中找出代词的先行词。

用来过滤潜在指代对象的特征

4 种相关的固定不变的构词特征:

代词解释中的优先关系

用来预测代词指代对象的特征:

代词回指消解的三种算法

代词回指基准系统:Hobbs 算法

算法最简单,包括:句法分析器、形态性别检查器和数字检查器,常常用作评价的基准系统。

输入:代词所在句子及代词之前的几个句子的句法表示;

代词回指消解的中心算法

中心理论(centering theory)显式采用话语模型表示。是实体一致的模型。在话语中的任何给定点都有一个单独的实体被作为“中心”,该实体与被唤起的其他实体有所不同。需要句法分析器和形态性别检查器。

代词回指消解的对数线性模型

对数线性分类器:基于手工标注的训练语料,语料由标有先行词的代词组成。

代词回指消解的特征

共指消解

共指消解算法:通过二元分类器,以指代和潜在先行词作为输入,判定是否共指。

共指消解常用特征:

共指消解的评价

模型理论的共指评价(model-theoretic coreference evaluations)

共指链(reference chain)或真实链(true chain):是实体出现的正确的或者真实的共指链。

假设链(hypothesis chain):共指消解算法为实体指派的链或者类。

B-CUBED 算法,评价 MUC-6 方法的扩展,依赖于手工标注的指代短语间的共指语料。计算的是相对于共指链实体在假设链中的准确率和召回率。

基于推理的连贯判定

假设分析器能够为每个从句指派合理的语义,那么连贯判定方法就可以依靠和每个连贯关系相关的语义限制来执行。

演绎(deduction)就是依赖这些限制进行推理的方法,是向前推出隐含关系的推理方法,是一种可靠推理形式(即前提为真,结论必为真)。

溯因推理或者诱导(abduction)推理:是后向推理方法,即从结果中寻找可能的原因,是不可靠的推理形式,是可以废止的(defeasible),但是提供了更大范围的推理能力。

比较可选择的溯因推理的证据的质量的方法:

注:基于代价的策略可以被应用于语言理解中的许多问题。

所指的心理学研究

小结