C01. Introduction
1.1 中文自然语言处理是什么
一门语言就是一个动态集合,其中包括符号及其对应的视觉、听觉、触觉或者文字交流的规则。
人类的语言被称为自然语言,其科学研究属于语言学范畴,其计算方式的实现属于计算语言学领域。
- 计算语言学侧重于人类语言的理论方面
- 自然语言处理则是语言理论的实现
自然语言处理的三个基本任务
- 形态分析:句子自动分词
- 分词歧义
- 词性标注:词性标注序列比词序列更加抽象,其语言覆盖范围也更加广泛
- 句法分析
- 语义分析
自然语言处理存在的主要问题
- 中文句子的词之间缺乏明确的分隔符
1.2 关于本书
本书的宗旨:中文形态分析
基本概念 ( C02, C03 )
- C02:从语言学的角度,介绍了中文的字、词素、词等基本概念
- C03:概述了在自然语言处理应用中需要考虑的中文词汇特性
词的自动识别 ( C04, C05 )
- C04:介绍了分词存在的问题以及对应的技术解决方案
- C05:介绍了未登录词 ( Out Of Vocabulary, OOV ) 的识别
中文词汇语义 ( C06, C07, C08 )
- C06:引入了词义的概念,并且介绍了几个包含词义信息以及词汇联系的中文自然语言处理的语义资源
- C07:概述了中文搭配的概念
- C08:自动抽取搭配的相关技术