《自然语言处理综论》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00

Categories： Tags：

Ch01 导论

会话代理（conversational agents）或者 对话系统（dialogue systems）是能够使用自然语言与人类会话的程序。其组成部分为：

语言输入
- 自动语音识别（automatic speech recognition）
- 自然语言理解（natural language understanding）
语言输出
- 自然语言生成（natural language generation）
- 语音合成（speech synthesis）

推理（inference）：对于更加复杂的问题，例如，需要抽取那些嵌入在网页的其他文本中的信息才能回答的问题，可以根据已经知道的事实推出结论，或者从多重的信息源或网页中对信息进行综合或摘取。

自然语言理解系统：拼写歧正（spell correction）、语法检查（grammar checking）

语音与语言处理中的知识

语音处理（speech processing）的基础知识：

语音学（phonetics）：单词是怎样发出音来而成为声音序列的。
音系学（phonology）：每一个声音是怎样在语音学上实现的。

语言处理（language processing）的基础知识：

形态学（morphology）：关于词的有意义的组成成分的知识
句法学（syntax）：关于词与词之间结构关系的知识。
语义学（semantics）：关于意义的知识
- 词汇语义学（lexical semantics）：单词的意义
- 组合语义学（copositional semantics）：单词组合的意义
语用学（pragmatics）或对话（dialogue）：关于意义与说话人的目的和意图之间的关系的知识
话语学（discourse）：关于比一个单独的更大的语言单位的知识。

歧义

消解（resolve）或者排歧（disambiguation）的模型与算法。

词汇排歧（lexical disambiguation）：
- 词类标注（parts-of-speech tagging）
- 词义排歧（word sense disambiguation）
句法排歧（syntactic disambiguation），也叫语法排歧。
- 概率剖析（probabilistic parsing）
- 言语行为解释（speech act interpretation）

模型和算法

模型（models）：

状态机器（state
machine），就是形式模型，也叫过程性模型。形式模型包括：状态、状态之间的转移以及输入表示等等。这些基本模型的变体有：
- 确定的有限状态自动机（deterministic finite-state automata，DFSA）
- 非确定的有限状态自动机（non-deterministic finite-state automata，NFSA）
- 有限状态转录机（finite-state transducers，FST）
形式规则系统（formal rule system），也是陈述性模型。既考虑了非概率模型，也考虑了概率模型。
- 正则语法（regular grammars）
- 正则关系（regular relations）
- 上下文无关语法（context-free grammars）
- 特征增益语法（feature-augmented grammars）
基于逻辑（logic）的模型，用于建立语义学、语用学的形式模型。
- 一阶逻辑（first order logic），即谓词演算（predicate）
- $\lambda$ 运算（lambda-calculus）
- 特征结构（feature structure）
- 语义基元（semantic primitives）
概率模型（probabilistic models）
- 加权自动机（weighted automaton）
- 隐马尔可夫模型（Hidden Markov Models，HMM）
向量空间模型（vector-space models），是基于线性代数的模型，是信息检索和语义处理的基础。

补充：状态机器和形式规则系统是用于处理音系学、形态学和句法学的主要工具。

算法：

动态规划（dynamic programming）算法的状态空间搜索（state space search）
- 深度优先搜索（depth-first search）
- 最佳优先搜索算法（best-first search）
- A*搜索算法（A* search）（Ref：Ch10）
机器学习工具，在自然语言处理的很多工作中起着重要作用。
- 分类器（classifiers）把一个单独的客体指派到一个单独的类别中
  - 决策树（decision trees）
  - 支持向量机（support vector machines）
  - 高斯混合矩阵（Gaussian mixture models）
  - 逻辑回归（logistic regression）
- 序列模型（sequence models）对于一个客体序列进行分类，并将它指派到一个类别序列中
期望最大化算法（Expecctation-Maximization，EM）
统计技术
- 交叉验证（cross-validation）对训练系统进行评测。

语言、思维和理解

图灵测试（Turing test）：两个人和一台计算机相互不见面，其中一个人是提问者，他在不了解对方是谁的情况下提出一繁殖问题，然后根据回答判断对方是人还是计算机。

学科现状与近期发展

语音和语言处理简史

研究领域

语言学中的计算语言学（computational linguistics）
计算机科学中的自然语言处理（natural language processing）
电子工程中的语音识别（speech recognition）
心理学中的计算机心理语言学（computational psycholinguistics）

基础研究：1940~1950

自动机（automaton）：有限状态自动机作为一种工具来刻画语言的语法，并且把有限状态语言定义为由有限状态语法生成的语言。
- 形式语言理论（formal language theory）：采用代数和集合论把形式语言定义为符号的序列。
概率模型（probabilistic models）或者信息论模型（information-theoretic models）：用于语音和语言处理的概率算法。
- Shannon 把通过通信信道或者声学语音这样的媒介传输语言的行为比喻为噪声信道（noisy channel）或者解码（decoding）。
- Shannon 借用热力学（thermodynamics）的术语「熵」（entropy）来作为测量信道的信息能力或者语言的信息量的一种方法，并且用概率技术测定了英语的熵。
声谱

两个阵营：1957~1970

符号派（symbolic）：

形式语言理论和生成句法的研究
剖析算法研究：前期的自顶向下和自底向上，后期的动态规划

随机派（stochastic）：

贝叶斯方法（Bayesian method）：

四个范型：1970~1983

随机范型（stochastic paradigm）：

隐马尔可夫模型
噪声信道与解码模型

基于逻辑的范型（logic-based paradigm）：

Q-系统（Q-system）
变形语法（metamorphosis grammar）
词汇功能语法（Lexical Function Grammar, LFG）
特征结构合一（feature structure unification）

话语模型范型（discourse model paradigm）：

子结构（substructure）
话语焦点（discourse focus）
自动参照消解（automatic reference resolution）
“信念－愿望－意图”（Belief-Desire-Intention, BDI）框架：基于逻辑的言语行为研究

经验语义和有限状态模型：1983~1993

有限状态模型

语音和语言处理的概率模型

不同领域的合流：1994~1999

概率和数据驱动的方法几乎成为了自然语言处理的标准方法。

语音和语言处理的算法开始应用于增强交替通信（Augmentative and Alternative Communication, AAC）。

机器学习：2000~2008

建立带标记的语料库

统计机器学习

高性能计算机系统

大规模的无监督统计学习方法

关于多重发现

Robert K. Merton(1961) 反对巧合：

一切科学发现，包括那些从表面上看来似乎是独一无二的科学发现，原则上都是多重的。

all scientific discoveries are in principle multiples, including those that on the surface appear to be singletons.

Leibnitz 和 Newton 分别发明了微积分
Wallace 和 Darwin 分别研究了自然选择的理论
Gray 和 Bell 分别发明了电话

Merton 的假设：多重发现是一个规律，而不是偶然的例外。许多公认的独一无二的发现原来是过去没有公布过的工作或者是没有被接受的工作的再发现。

小结

本章重点：语音处理和语言处理

语音和语言处理技术与音系学、语音学、形态学、句法学、语义学、语用学和话语分析等不同平面上的语言知识的形式模型和形式表示方法有着依赖关系。使用包括状态机、形式规则系统、逻辑等在内的形式模型以及概率模型。
语音和语言处理的基础是计算机科学、语言学、数学、电子工程和心理学。
语言和思维之间的密切联系使语音和语言处理技术成为了机器智能的一部分。
语音和语言处理的应用已经越来越丰富多彩。

《基于深度学习的自然语言处理》学习笔记

《自然语言处理综论》学习笔记