计算话语学
话语(discourse):由搭配在一起、具有一定结构并且连贯(coherent)的句子群组成的。
话语的类型:
独白(monologue)
对话(dialogue)
人和人的对话(human-human dialogue)
人机对话(human-computer dialogue)
指代消解(Reference Resolution):决定代词以及其他名词短语指代的内容。
代词回指消解(anaphora resolution)
共指消解(coreference resolution)
连贯关系(coherence relations):决定话语中句子间的连贯结构。连贯话语中的句子之间必须有语义上的联系。
基于实体的一致性(entity-based coherence)是一种连贯性,说明连贯的话语与涉及在话语中实体之间必须表现出一定的关系。
话语结构:简单话语分割(discourse segmentation)和连贯性关系(coherence relation)。
简单话语分割:就是把一篇文档分割成线性序列的多个段落的篇章。
篇章→关系→实体。
话语分割
话语分割(discourse segmentation):把一篇文档切分成一个线性的子主题序列。
使用内聚机制寻找话语结构。
无监督话语分割
线性分割(linear segmentation):把文本分割成多个多段单元的任务,其中每个单元表示原谅中的一个子主题或者段落。
内聚性(cohesioin):是指用一定的语言学手段将文本单元联系或者连接在一起。
词汇内聚性(lexical cohesion):是指两个语言单元中基于词语音关系列表现出来的内聚性。
非词汇内聚性:例如,使用回指(anaphora),也称指代或者首语重复。
内聚链:通过相关词语的一个序列表现出来的内聚性。
内聚性(cohesion)与连贯性(coherence)的区别。
- 内聚性:指的是文本单元联系在一起的方式,把两个单元聚成一个单元。
- 连贯性:用来解释不同文本单元的意义如何结合在一起以表达一个更大粒度的话语意义,是两个单元意义之间的关系。
线性话语分割的无监督算法基于内聚性。基于内聚性的分割算法的都是同一个子主题中的句子或者段落之间具有内聚性,而相邻的子主题之间的段落则没有这种内聚性。因此,度量内聚性时希望子主题内部的内聚性强,邻近子主题的内聚性弱。
基于内聚性的算法:TextTilling 有三个部分
- 分词(tokenization)
- 词汇分值确定(lexical score determination)
- 词汇内聚性得分(lexical cohesion score)
- 边界识别(boundary identification)
- 深度分数(depth score)
有监督话语分割
基于多种分类器完成有监督话语分割。
特征:无监督分类特征的超集(内聚性特征、词语重叠度、词语的余弦距离、LSA、词汇链、共指等等)
话语标记(discourse markers)或提示词(cue word):表现话语结构的词语或者短语。
话语标记是领域特定的,可以利用手写规则或者正则表达式去确定特定领域的话语标志。在话语分割的预处理阶段需要进行命名实体识别,
话语分割的评价
WindowDiff 通过在系统输出的分割上滑动一个探测器,即大小为 k 的滑动窗口,来对自动标注的边界和人工标注的边界进行比较。
因为准确率、召回率以及 F 值对分割边界的距离误差不敏感,因此不使用它们来评价分割算法。
文本连贯性
连贯关系(coherence relations):话语的话段之间所有可能的连接
结果(Result):推测 A 声明的状态或者事件导致了 B 声明的状态或者事件。
说明(Explanation):推测 B 声明的状态或者事件导致了 A 声明的状态或者事件。
平行(Parallel):推测 A 声明的和推测 B 声明的都是类似的。
细化(Elaboration):推测 A 声明和推测 B 声明的是同一个命题。
时机(Occasion):推测从 A 声明的状态到 B 声明的最终状态的状态变化,或者推测从 B 声明的状态到 A 声明的最初状态的状态变化。
树中每个结点代表一组局部连贯的从句或者句子,称之为话语片断(discourse
segment)。
修辞结构理论
修辞结构理论(Rhetorical Structure Theory,RST):是连贯关系理论中的一种,是一种文本组织模型,应用在文本生成领域。包含了 23 种修辞关系,用于表示话语中不同跨度的文本之间的关系。大部分修辞关系保持在两个文本跨度之间,一个作为核心(nucleus),一个作为外围(satellite)。核心是更接近作者意图的并且能够独立解释的单元,外围是离作者意图远些并且通常需要和对应的核心一起解释。
在证据关系(Evidence),外围为核心表述的观点或情况提供证据。
RST 关系:
- 细化(Elaboration):外围对核心做进一步的补充说明
- 属性(Attribution):外围给出核心中转述语实例的属性来源
- 对照(Contrast):多核心关系,两个或多个核心在某些重要的维度上进行对比
- 并列(List):多核心关系,两个或多个核心不进行比较
- 背景(Background):外围给出解释核心的上下文
自动连贯指派
连贯关系指派(coherence relation assignment):给定一个句子串,自动确定句子之间的连贯关系。
话语分析(discourse parsing):抽取能够表示整个话语的树或图。
基于提示短语(cue phrases)的浅层算法。
- 识别文本中的提示短语。
- 提示短语(cue phrase),或者话语标志(discourse marker),或者提示词(cue word)是能够指示话语结构的词或者短语,特别是能够把话语片段联系在一起。
- 连接语(connectives)是一种提示短语,通常是连词或者副词,提供了两个片段之间存在的连贯关系的线索。
- 基于提示短语把文本分割成话语片断。
- 话语片断的大小是从句或者类似从句的单元。
- 基于单个提示短语手工编写分割规则。
- 利用句法分析器,可以利用句法短语制定更加复杂的分割规则。
- 利用提示短语对连续话语片段间的关系进行分类。
- 为话语标志撰写规则,但是注意提示短语的歧义性带来的问题
- 使用自举法对大规模语料进行连贯关系自动标注,从而满足训练分类器需要的大量数据。
- 使用正则表达式抽取包围提示短语的话语片段对,然后移除提示短语。最终的句子对不带有提示短语,就可以用于抽取连贯关系的监督训练集。
基于溯因推理(abduction)的算法。
指代消解
指代消解(reference resolution):决定哪些实体被哪些语言表述所指代。
提示语(referring expression):用于实现指代的自然语言表达。
所指对象(referent):指向的实体。
共指(corefer):两个指示语用于指向同样的实体。
先行词(antecedent):以一种方式准许使用另一个提示语。
复指(anaphora)或者回指:提及一个先前已经被引入话语的实体。使用的指示语是复指语(anaphoric)。
指向实体的方式依赖于实施的话语上下文(discourse context),还依赖于话语的情境上下文(situational context)。
话语模型(discourse model):具有特定地位的信念子集形成了听话人对正在进行的话语的心理模型,包括本话语中所指向实体的表示以及它们参与的关系。
指代消解系统的两个部分:
- 构造话语模型的方法,该模型能够随着所表示的话语的动态变化而演化;
- 各种指示语暗含的信息到听话人的信念集之间的映射方法,包括该话语模型。
话语模型的两个基本操作:
- 当话语中首次提及所指对象时,表示对象被唤起(evoke)而进入模型;
- 当话语中再次提及所指对象时,从模型中访问(access)它的表示。
指代消解的两种任务:
- 代词回指消解(pronominal anaphora resolution):找出一个代词的先行词,也可以将人称代词消解看成共指消解的子任务。
- 共指消解(coreference resolution):找出文中所有的指向同一实体的指示词,即找出所有具有共指(corefer)关系的表述。一系列的指示语称为共指链(coreference chain)。
指代现象
指示语的五种类型
- 不定名词短语(indefinite noun phrase):不定所指将一个新的实体引入了话语环境。
- 有定名词短语(definite noun phrase):指示对象可以确认的实体。
- 实体在文本中已经被提起,并且也被表示于话语模型中
- 实体包含在听话人关于世界的信念集中
- 实体本身的描述就包含了唯一性。
- 代词(Pronoun):使用代词的所指相比有定名词短语受到更强的约束,要求在话语模型中所指对象具有高度的活力或者显著性。代词指示的实体被引入的位置相比有定名词短语的要近。
- 代词也可以参与提前指代(cataphora),即在代词所指对象出现之前就提及代词。
- 指示代词(Demonstrative):即可以单独出现,也可以作为限定词。
- “this”是近端指示词(proximal demonstrative):表示文字上或者隐喻上比较接近;
- “that”是远端指示词(distal demonstrative):表示文字上或者隐喻上相隔较远(例如:时间上相隔较远)
- 名字(Names):包括人名、机构名和地名。在话语中名字可以用来指代新的或者旧的实体。
信息状态
相同的指示语(如许多不定名词短语)能够用来表示新的指示对象,其他的指示语(如许多确定名词短语)可以用来指向旧的所指对象。
信息状态(information status)或信息结构(information structure):对不同所指形式提供新的或者旧的信息的方式。
话语中不同各类的所指形式和所指对象的信息度或者显著性之间的关系:
- 约定层级(givenness hierarchy):表示 6 种信息状态的尺度,每一种信息状态由不同的指示语指示。
- 相关接受度尺度(accessibility scale):
- 越显著的所指对象越容易唤醒听者的回忆,因此可用较少语言材料的内容来指代;
- 不显著的实体需要较长的和较显著的指示语来帮助听者恢复所指对象。
- 听者状态和话语状态来分析信息状态。
- 听者状态表明所指对象对听者来说是已经知道的或者是新的;
- 话语状态表明所指对象在话语的前面部分是否已经被提起。
指示语形式和信息状态之间的关系:
- 推理对象(inferrables):也叫桥接推理(bridging inferences),或者中间物(mediated)。“指示语”不指向文中已经被明显唤起的实体,而是指向与唤起实体具有推理性关系的实体。
- 类属指代(generics):“指示语”不指向文中已经被明显唤起的实体,而是指向与唤起实体具有同类关系的实体。
- 无所指形式(non-referential forms):某些无所指形式与指示语在表面上很相似。
代词回指消解所使用的特征
给定代词及代词前面的上下文,从上下文中找出代词的先行词。
用来过滤潜在指代对象的特征
4 种相关的固定不变的构词特征:
- 数的一致(number agreement):指示和和所指对象在数上保持一致。
- 人称一致(perosn agreement):代词的先行词与代词在数上保持一致。
- 性的一致(gender agreement):所指对象与指示语的性别保持一致。
- 约束理论限制(binding theory constraints):指示语和先行名词短语出现在相同句子中,所指关系受到指示语和先行名词短语之间句法关系的约束。
代词解释中的优先关系
用来预测代词指代对象的特征:
- 新近性(recency):新近的话段所引入的实体比先前较远的话段所引入的实体具有较高的显著性。
- 语法角色(grammatical role):通过实体表示的语法位置来排序的实体显著性层级。
- 主语位置的实体的显著性最高
- 宾主位置的实体的显著性其次
- 后续位置的实体的显著性最低
- 重复提及(repeated mention):已经作为焦点的实体,在后面的话语中更可能成为焦点,它们的所指也更可能被代词化。
- 平行(parallelisom):平行效果会带来明显的优先关系。
- 动词语义(verb semantics):动词会对某个位置的论元产生强调,而影响指代优先级。
- 选择限制:语义知识可以影响指代优先级。
代词回指消解的三种算法
代词回指基准系统:Hobbs 算法
算法最简单,包括:句法分析器、形态性别检查器和数字检查器,常常用作评价的基准系统。
输入:代词所在句子及代词之前的几个句子的句法表示;
代词回指消解的中心算法
中心理论(centering theory)显式采用话语模型表示。是实体一致的模型。在话语中的任何给定点都有一个单独的实体被作为“中心”,该实体与被唤起的其他实体有所不同。需要句法分析器和形态性别检查器。
代词回指消解的对数线性模型
对数线性分类器:基于手工标注的训练语料,语料由标有先行词的代词组成。
代词回指消解的特征
- 严格的数匹配(strict number):真或假。
- 相容的数匹配(compatible number):真或假。
- 严格的性别匹配(strict gender):真或假。
- 相容的性别匹配(compatible gender):真或假
- 句子距离(sentence distance):代词和潜在的先行词之间的句子数目。
- Hobbs 距离(Hobbs distance):从代词开始回溯找到潜在先行词之前,Hobbs 算法必须跳过的名词组的数目。
- 语法角色(grammatical role):潜在先行词的角色——句法中的主语、直接宾语或者 PP 中的一个嵌入成分。
- 语言学形式(linguistic form):潜在先行词的形式——专有名词、确定描述、不定描述或者代词。
共指消解
共指消解算法:通过二元分类器,以指代和潜在先行词作为输入,判定是否共指。
共指消解常用特征:
- 回指编辑距离(anaphor edit distance):从潜在先行词到指代的字符最小编辑距离
- 先行词编辑距离(antecedent edit distance):从指代到先行词的最小编辑距离
- 别名(alias):真或假。命名实体标签的多重特征。
- 同位语(appositive):真或假。指代语和先行词是否处于语法中的同位关系。
- 语言学形式(linguistic form):潜在回指的形式——专有名称、确定描述、不定描述或者代词。
共指消解的评价
模型理论的共指评价(model-theoretic coreference evaluations)
共指链(reference chain)或真实链(true chain):是实体出现的正确的或者真实的共指链。
假设链(hypothesis chain):共指消解算法为实体指派的链或者类。
B-CUBED 算法,评价 MUC-6 方法的扩展,依赖于手工标注的指代短语间的共指语料。计算的是相对于共指链实体在假设链中的准确率和召回率。
基于推理的连贯判定
假设分析器能够为每个从句指派合理的语义,那么连贯判定方法就可以依靠和每个连贯关系相关的语义限制来执行。
演绎(deduction)就是依赖这些限制进行推理的方法,是向前推出隐含关系的推理方法,是一种可靠推理形式(即前提为真,结论必为真)。
溯因推理或者诱导(abduction)推理:是后向推理方法,即从结果中寻找可能的原因,是不可靠的推理形式,是可以废止的(defeasible),但是提供了更大范围的推理能力。
比较可选择的溯因推理的证据的质量的方法:
- 概率模型
- 启发式策略:优先选择假设数目最少的解释或者最具体的解释
- 基于代价(cost-based)的策略:结合了概率特征和词性式方法。世界知识和领域知识被用于确定话段间最合理的连贯关系。
注:基于代价的策略可以被应用于语言理解中的许多问题。
所指的心理学研究
小结
- 与句子一样,话语也具有层级结构。通过假设话语具有简单的线性结构,可以基于词汇内聚性、话语标志或者提示短语对文本进行主题条件分割。
- 话语是连贯的。保持话语连贯的因素是句子间的连贯关系以及基于实体的连贯关系。
- 修辞关系旨连贯关系理论中的一种。用于检测修辞关系的算法可以使用表层提示(例如:提示短语、句法信息)
- 话语模型:为话语状态建立的一种可以演变的话语表示方式,包含:已经提及的实体和实体之间关系的表示。
- 指向实体的方法将世界知识集和话语模型一起加工后传递给听话人。
- 代词所指被用于话语模型中具有足够显著度的所指对象。各种话语的因素都会影响显著性。
- Hobbs 算法、中心算法以及对数线性模型提供了不同的方式来使用和结合不同的限制。
- 完整的 NP 共指任务必须处理名称和确定的 NP。任务中的字符串编辑距离是重要的特征。
- 建立连贯关系的高级算法使用一个或者多个连贯关系构成的限制,能够推出说话者的潜在信息。不完全的逻辑溯因规则可以用来进行此类推理。