《自然语言处理综论》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00
Categories: Tags:

Ch23 问答 和 摘要

问题 ( Question Answer ) 任务和摘要 ( Summarization ) 任务,都以生成特定的短语、语句或者短小段落为目标,以回答用户用自然语言所表达的信息需求为结果。

信息检索 ( Information Retrieval, IR ) 是返回与特定自然语言查询相关方法的任务。包括对各类媒体,包括:文本、图片、音频和视频等数据进行存储、分析和检索。本章重点是基于词的查询的文本文档存储和检索。

这些子任务背后的核心思想是:从文档或者类似于 Web 这样的文档集中直接抽取 ( extracting ) 满足用户信息需求的段落。

文本摘要 ( text summarization ) :是为了生成包含重要或者相关信息的删减版的文本。复杂问题的回答都是通过拼接来自较长文档的摘要片段得到。

信息检索

信息检索 ( Information Retrieval, IR ) 是对各种媒体存储和检索相关的任务。当今 IR 系统主要基于组合语义,即文档中的含义仅仅由它所包含的词的集合所决定,而忽略了句法信息,俗称为「词袋子」 ( bag of words ) 模型。

在信息检索领域的几个重要名词:

向量空间模型

在信息检索的向量空间模型 ( vector space model ) 中,文档和查询都被表示为一个特征向量,其中特征表示在文档集中出现的词语

每个特征的值被称为词语权重 ( term weight ) ,通常是检索词在文档中出现频率以及其他因素的一个函数。

在基于向量的信息检索中,使用余弦相似度 ( cosine metric ) 来度量两篇文档之间的距离。

余弦值也可以看作为归一化的点积 ( normalized dot product ) ,即两个向量的点积 ( dot product ) 除以每个向量的长度。

把文档表示为词语向量的权重就可以把整个文档看成一个 ( 稀疏的 ) 权重矩阵,称为词语——文档矩阵 ( term-by-document matrix ) 。

词语权重计算

TF-IDF:将词频与倒排文档频率相结合构成的加权方案。偏好于在当前文档出现次数较多,而在整个文档集合中出现较少的词。出现在少数文档中的检索词拥有更高的权重。

TF-IDF 加权余弦值:测量两个文档之间的距离

词语选择和建立

词干化 ( stemming ) 是对单词的屈折和形态变化做出的还原处理。采用词干化处理可以将特定的查询词与任何包含这个词形态的各种变体的文档相匹配。

停用词表 ( stop list ) :需要被排除的索引词表。一般是高频词的简单列表,将高频词排除在文档和查询表示之外的原因是:几乎不具有语义权重。

信息检索系统的评测

性能评价的两个基本工具:正确率 ( precision ) 和召回率 ( recall ) 。

返回的文档分成两个部分:相关文档 ( 与检索目的有关的文档 ) 和无关文档。

性能评价的两个方法:

同形关系、多义关系和同义关系

同形关系和多义关系可能导致系统返回与用户需求无关的文档,从而造成准确率的降低。

同义关系和上下位关系可能导致系统错误与用户需求相关的文档,从而造成召回率的降低。

改进用户查询的方法

改善向量空间模型中信息检索系统性能的方法:

事实性问答

问答 ( question answering ) :使用一段特定信息来回答用户问题的任务。

事实性问答:使用命名实体来回答用户的问题

事实性问答系统是从网络或者其他文档集合中通过查找可能包含答案的较短的文本片段,并对其进行重构来最终呈现用户的任务

问题系统的二个步骤:

现代事实性问答系统的三个阶段:

问题处理

问题处理阶段从问题中抽取出的两项内容:

段落检索

文档检索阶段将返回一个文档集,这个文档集将提交给信息检索系统,或者是私有索引文档集上的 IR 引擎,或者是私有索引文档集上的网络搜索引擎。这个文档集一般是按照相关性排序,但是排名最高的文档可能并非需要的答案,因此可以从文档集中提取一系列可能的答案段落,然后进行段落检索从而过滤掉不需要的文档,并对剩下的文档进行排序。

段落 ( passage ) :一般是包含了节、段落和句子的文档,具体由系统决定。

段落检索 ( passage retrieval ) :过滤返回文档中不包含潜在答案的段落,然后对剩下的段落根据包含答案的可能性进行排序

段落检索使用的特征集:

答案处理

答案抽取任务:从段落中抽取特定的答案提供给用户。

常用的答案抽取算法

事实性答案的评价

TREC 使用的主要度量:

摘要

文本摘要 ( text summarization ) 是从文本中提炼最重要的信息,并且根据特定和用户生成一个缩略版本的过程。

文本摘要的分类

文本摘要系统的关键的架构维度:

文本摘要系统,也叫自然语言生成系统,针对的三个问题:

单文档摘要

单文档摘要是以句子为摘抄单位,执行下面三个步骤:

无监督的内容选择

选择包含了更显著的 ( salient ) 或者更多信息的 ( informative ) 词的句子,是依赖于表层特征 ( 例如:词的显著性 ) 的无监督算法。

显著性基于主题特征 ( topic signature ) 计算,即显著词 ( salient term ) 或者特征词 ( signature term ) 的集合,其中每个词的显著性得分必须大于某个阈值。

基于中心的摘要 ( centroid-based summarization ) 算法族:可以把特征词的集合看成一个伪句子,这个集合是文档中所有句子的「中心」,查询就是找到最接近于中心句的句子。

基于修辞分析的无监督摘要

使用篇章信息 ( 例如:连贯关系 ) 的无监督算法。

基于篇章分析器 ( Ref: Ch21 ) 计算每个篇章单元之间的连贯关系。将句子分析为连贯关系或者分析树时,就可以基于核心单元对于摘要递归地抽取文本中的卫星单元

连贯分析树上每个结点的显著单元的递归定义:

有监督的内容选择

给所有线索赋予权重并结合在一起的方法是有监督的机器学习方法。需要由人工创建对应的摘抄型摘要的文档集作为训练语料,将每个训练文档与其摘要对齐,找出文档中包含在摘要中的句子。

对齐 ( alignment ) 算法是找出源文档和摘要语句之间非信用词的最长公共子序列,或者计算最小编辑距离,或者使用更加复杂的短语源。

句子简化

句子实现 ( sentence realization ) 主要通过句子压缩 ( sentencce
compression ) 或者句子简化 ( sentence
simplification ) 。首先进行句法分析或者部分句法分析,通过一些代表性规则剪除或者保留某些句子。更加复杂的句子压缩模型基于有监督的机器学习方法,其中文档和人工摘要的平等语料被用来计算特定词汇或者短语结点被剪除的概率。

多文档摘要

多文档摘要适合基于网络的应用。

多文档摘要的内容选择

多文档摘要因为训练数据太少,所以主要关注于无监督算法。

多文档摘要与单文档摘要的最大区别是文档中存在大量的冗余。在一个文档集合中,除了每篇文档所表达的特定信息之外,各文档在词汇、短语和概念上都会存在明显的重叠。因此多文档摘要算法的关键是选择摘要句子时剔除冗余。

多文档摘要的信息排序

信息的排序或者结构化:

基于共指的连贯性算法:也使用了基于中心 ( Centering ) 的思想。每个简单片段都有一个显著的实体,即焦点。焦点的句法特定实现以及实现之间的特定转移,可以创建更加连贯的对话。实体识别的结构序列可以自动抽取并且表示为一个实体网格。

根据句子或者句子序列之间的局部连贯性得分,为每个语句序列指派一个连贯性得分。然后句子之间的转移得分可以与词汇连贯性和基于实体的连贯性结合起来。句子排序的难度等同于 NP 完全问题。

信息排序任务是完全独立于内容选择的。

信息排序任务和内容选择任务合并在一起进行学习,得到一个对语句进行选择并且排序的模型。

多文档摘要的句子实现

对输出进行共指消解,抽取名称,并且运用下面的清理重写规则:

主题摘要和问答

针对查询的摘要,也叫主题摘要、基于主题的摘要、针对用户的摘要,是响应用户问题或者信息需求的一种较长的、非事实的答案。

一种针对查询的摘要就是摘录 ( snippet ) ,即单个文档针对查询的摘要。

通过对多文档摘要技术简单修改就可以实现针对查询的摘要。

使用自顶向下的或者信息抽取的技术可以实现针对查询的摘要。

基于信息抽取的复杂问答系统:

摘要的评价

内在摘要评价进一种自动的方法,称为面向召回率的要点评估 ( Recall-Oriented
Understudy for Gisting
Evaluation, ROUGE ) 。根据机器生成的候选摘要和人工摘要的 N-gram 重叠数目,自动地为候选摘要评分。

侧重于摘要的含义的评价方法:金字塔方法 ( Pyramid
Method ) ,主要统计候选摘要和参考摘要共享了多少个意义单位。可以根据重要性为每个含义单位赋权;某个含义单位出现在越多的人工摘要中,那么这个含义单位的权重也就越高。

意义单位,也称为摘要内容单位 ( Summary Content
Units, SCU ) ,是一种子句结构的语义单位,对应命题或者连贯的命题片段。人们为每个参考摘要和候选摘要里的摘要内容单位进行标注,然后计算重叠的数量。

评价摘要的标准基准系统是随机句子和首句基准系统。当评价长度为 N 个句子的摘要,系统就随机选择 N 个句子,然后首名基准系统选择前 N 个句子。

小结