《自然语言处理综论》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00
Categories: Tags:

Ch01 导论

会话代理(conversational agents)或者 对话系统(dialogue systems)是能够使用自然语言与人类会话的程序。其组成部分为:

推理(inference):对于更加复杂的问题,例如,需要抽取那些嵌入在网页的其他文本中的信息才能回答的问题,可以根据已经知道的事实推出结论,或者从多重的信息源或网页中对信息进行综合或摘取。

自然语言理解系统:拼写歧正(spell correction)、语法检查(grammar checking)

语音与语言处理中的知识

语音处理(speech processing)的基础知识:

语言处理(language processing)的基础知识:

歧义

消解(resolve)或者排歧(disambiguation)的模型与算法。

模型和算法

模型(models):

补充:状态机器和形式规则系统是用于处理音系学、形态学和句法学的主要工具。

算法:

语言、思维和理解

图灵测试(Turing test):两个人和一台计算机相互不见面,其中一个人是提问者,他在不了解对方是谁的情况下提出一繁殖问题,然后根据回答判断对方是人还是计算机。

学科现状与近期发展

语音和语言处理简史

研究领域

基础研究:1940~1950

两个阵营:1957~1970

符号派(symbolic):

随机派(stochastic):

四个范型:1970~1983

随机范型(stochastic paradigm):

基于逻辑的范型(logic-based paradigm):

话语模型范型(discourse model paradigm):

经验语义和有限状态模型:1983~1993

有限状态模型

语音和语言处理的概率模型

不同领域的合流:1994~1999

概率和数据驱动的方法几乎成为了自然语言处理的标准方法。

语音和语言处理的算法开始应用于增强交替通信(Augmentative and Alternative Communication, AAC)。

机器学习:2000~2008

建立带标记的语料库

统计机器学习

高性能计算机系统

大规模的无监督统计学习方法

关于多重发现

Robert K. Merton(1961) 反对巧合:

一切科学发现,包括那些从表面上看来似乎是独一无二的科学发现,原则上都是多重的。

all scientific discoveries are in principle multiples, including those that on the surface appear to be singletons.

Merton 的假设:多重发现是一个规律,而不是偶然的例外。许多公认的独一无二的发现原来是过去没有公布过的工作或者是没有被接受的工作的再发现。

小结

本章重点:语音处理和语言处理