译者序
计算机对自然语言的研究和处理需要经过以下4个过程:
把需要研究的问题在语言学上加以形式化,使之能以一定的数学形式,严密而规整地表示出来;
把这种严密而规整的数学形式表示为算法,使之在计算上形式化;
根据算法编写计算机程序,使之在计算机上加以实现;
对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户的需要。
Bill Manaris对自然语言的定义:
自然语言处理可以定义为:研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。
自然语言处理要研制:语言的表示能力(linguistic
competence)和语言的应用模型(linguistic
performance),通过建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,设计各种系统来实现这样的语言模型,并探讨这些实用系统的评测技术。
建立自然语言处理模型需要的知识:
声学和韵律学的知识:描述语言的节奏、语调和声调的规律,说明语音是怎样形成音位的。
音位学的知识:描述音位的结合规律,说明音位是如何形成语素的。
形态学的知识:描述语素的结合规则,说明语素是怎样形成单词的。
词汇学的知识:描述词汇系统的规律,说明单词本身固有的语义特性和语法特性。
句法学的知识:描述单词(或词组)之间的结构规则,说明单词(或词组)是怎样组成句子的。
语义学的知识:描述句子中各个成分之间的语义关系,这样的语义关系是与情景无关的,说明怎样从构成句子的各个成分中推导出整个句子的语义的。
话语分析的知识:描述句子与句子之间的结构规律,说明是怎样由句子形成话语或对话的。
语用学的知识:描述与情景有关的情景语义,说明是怎样推导出句子具有的与周围话语有关的各种含义的。
外界世界的常识性知识:描述关于语言使用者与语言使用环境的一般性常识,例如:语言使用者的信念和目的,说明是怎样推导出这样的信念和目的内在结构的。
P8 图0.1 自然语言处理系统中的知识平面:
→(话语)→音位学平面→(音位)→形态学平面→(语素)→词汇学平面→(单词)→句法学平面→(句法结构)→语义学平面(意义表示)→(语义解释)→语用学平面→(语用解释)