《中文自然语言处理导论》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00
Categories: Tags:

C02. 中文的词

本章主要关注中文文本的形态处理,包括与之相关的语言单元的素和词。

2.1 引言

基本问题

中文构词法多以形态合成法为主,并且辅以相对较少的词缀;同时,中文构词还采用了叠词形式

2.2 字、语素和词

2.2.1 字

汉字只有少部分是象形字,90%以上的都是形声字

中文是形态音节型的文字,即每个字都是一个单音节,也是最小语义承载单位——语素。(德范克,1984,美国)

2.2.2 语素

语素是最基本的形态单元和最小的语义单位。语素可以用来构成词,但是不能再被分解为更小的并且仍然具有意义的单位。

中文语素往往是单音节的,每个语素/音节写为一个汉字。虽然一个音节、一个语素对应一个汉字属于一般情况,然而还有一些特例:多个音节组成的语素(「葡萄」、「菩萨」、「马虎」、「马达」、「咖啡」、「萨其马」、「巧克力」等),这些例外是借自其他语言的外来词,原始的中文词大部分遵循「音节-语素-汉字」的对应关系

2.2.3 词

词依据分布约束性和词义完整性来实现形态学单元的独立性

中文词多使用双音节词

2.3 词的构成

单纯词:由一个词根语素组成。例如:「人」、「手」、「车」、「坦克」、「枇杷」

合成词:由两个以上的语素构成。

2.3.1 双音节复合词

根据语素之间的结构关系进行分类

2.3.2 三音节复合词

在三个语素之中,前两个或者后两个语素会有更加紧密的联系

三音节复合词分类