C02. 中文的词
本章主要关注中文文本的形态处理,包括与之相关的语言单元的素和词。
2.1 引言
基本问题
- 中文里的词是怎样表示的?
- 中文里的词是怎样构成的?
- 中文里的词是怎样识别的?
中文构词法多以形态合成法为主,并且辅以相对较少的词缀;同时,中文构词还采用了叠词形式
2.2 字、语素和词
2.2.1 字
汉字只有少部分是象形字,90%以上的都是形声字
- 象形字
- 表意字:直接表示意义
- 指示字:「上」、「下」、「一」、「二」、「三」
- 会意字:「仁」、「信」
- 形声字:由表示读音的一个声旁和一个形旁组成。形旁只表示这个字的大概含义,用以区分它的同音异形异义字,而不是准确地指出字的含义,例如:「请」、「情」、「清」、「晴」
中文是形态音节型的文字,即每个字都是一个单音节,也是最小语义承载单位——语素。(德范克,1984,美国)
2.2.2 语素
语素是最基本的形态单元和最小的语义单位。语素可以用来构成词,但是不能再被分解为更小的并且仍然具有意义的单位。
中文语素往往是单音节的,每个语素/音节写为一个汉字。虽然一个音节、一个语素对应一个汉字属于一般情况,然而还有一些特例:多个音节组成的语素(「葡萄」、「菩萨」、「马虎」、「马达」、「咖啡」、「萨其马」、「巧克力」等),这些例外是借自其他语言的外来词,原始的中文词大部分遵循「音节-语素-汉字」的对应关系
2.2.3 词
词依据分布约束性和词义完整性来实现形态学单元的独立性
- 分布约束性:一个词可以单独地出现(如单个词构成的句子),而语素不能
- 能够单独出现的语素,其必定也是个词
- 不能单独出现的语素,其必定是个粘着语素,必须与其他语素结合才能成词
- 语法语素:「的」、「地」、「得」、「了」、「着」、「过」等等
- 实义语素:「行」、「饮」等等
- 词义完整性:很难从组成词的语素中推测出词的含义
- 「黑板」中的「黑」
- 「大人」中的「大」
- 「小人」中的「小」
中文词多使用双音节词
- 包含同义语素的双音节复合词,多余的音节或者语素并没有改变词义
- 例如:「保护」、「购买」、「销售」
- 存在双音节的缩略词
- 例如:「北京大学」的「北大」
- 单音节的地名+范畴的标记
- 例如:「法国」、「英国」、「通县」
- 双音节的地点(不加范畴标记)
- 例如:「日本」、「印度」、「大兴」
- 双音节姓名
- 双音节姓名,直接称呼,例如:「王源」、「宁静」
- 三音节姓名,直呼名字,例如:「岳云鹏」叫「鹏鹏」、「郭德纲」叫「纲纲」
- 单音节姓,加上前缀,例如:「老李」、「小王」
- 双音节姓,不加前缀,例如:「欧阳」、「端木」
2.3 词的构成
单纯词:由一个词根语素组成。例如:「人」、「手」、「车」、「坦克」、「枇杷」
合成词:由两个以上的语素构成。
- 派生词:在词根语素意义的基础上派生出来的
- 例如:「阿妈」、「读者」、「石头」
- 复合词:完全由几个词和语素按照一定的规则构成的,语义由两个语素的意义复合构成的
- 例如:「病人」、「山川」
2.3.1 双音节复合词
根据语素之间的结构关系进行分类
- 复合名词:53%的双音节复合词都是复合名词,这类词在名词之前有描述性的修饰词,但是整个词的意义与这个修饰部分不同
- 例如:「小人」、「热心」、「打手」、「去年」、「爱人」
- 复合动词:这类词在动词之前有修饰部分,对动作进行更加精确的限定
- 例如:「寄生」、「飞驰」、「杂居」、「单恋」
- 并列复合词:复合词中的两个语素在功能上等同,这样的词占所有双语素复合词的27%
- 同义复合词:两个语素有相同或者相近的含义
- 例如:「报告」、「声音」、「奇怪」、「购买」、「刚才」
- 反义复合词:两个语素有相反的含义,词性也可能不同
- 例如:「买卖」、「左右」、「大小」、「开关」、「轻重」
- 同义复合词:两个语素有相同或者相近的含义
- 动宾复合词:在动词性语素后面加上宾语语素,这样的词占所有双语素复合词的13%,即可以作为动词也可以作为名词
- 动词性的双音节动宾复合词
- 例如:「放心」、「鼓掌」、「动员」
- 名词性的双音节动宾复合词
- 例如:「司机」、「主席」、「干事」、「司仪」
- 动词性的双音节动宾复合词
- 动补复合词:在动词性语素后面跟有补语(动词结果补语),表示动作过程的方向或者结果
- 含有方向补语的复合词
- 例如:「进来」、「进去」、「介入」、「超出」
- 动词结果短语复合词
- 例如:「改良」、「打破」、「推翻」、「听见」、「煮熟」
- 含有方向补语的复合词
- 主谓复合词:语素间的语义关系类似于句子中的主语和谓语(动词或者形容词)
- 例如:「地震」、「心疼」、「民主」、「胆小」、「年轻」
- 名词——量词补语复合词:语素关系并不是常见语法关系,名词后跟一个量词补语,表示名词所属事物的总体
- 例如:「人口」、「羊群」、「书本」、「花朵」、「枪支」、「车辆」
2.3.2 三音节复合词
在三个语素之中,前两个或者后两个语素会有更加紧密的联系
- 左分支结构:前两个语素联系紧密,即
[AB]C
形式 - 右分支结构:后两个语素联系紧密,即
A[BC]
形式
三音节复合词分类
- 修饰词——名词:占所有三音节复合词的 75%
- 例如:「[情人]节」、「[小说]家」、「[大学]生」
- 动宾复合词
- 例如:「开[玩笑]」、「吹[牛皮]」、「吃[豆腐]」
- 主谓宾复合词
- 例如:「胆[结石]」、「鬼[划符]」
- 描述性修饰+名词式复合词:名词之前加上叠词或者拟声的两个音节
- 例如:「[棒棒]糖」、「[乒乓]球」、「[呼啦]圈」