Ch05 词类标注
词类(Part-of-Speech,POS),又称为单词类别(word classes)、形态类别(morphological classes)或者词汇标记(lexical tags)。
词类标注(part-of-speech tagging):把词类指派给单词。
词类标注的常用方法:
- 基于规则的标注(rule-based tagging):手写规则
- 基于统计机器学习模型的标注
- 基于 HMM(隐马尔可夫)模型的标注
- 基于 MEMM(最大熵)模型的标注
- 基于转换的标注(transformation-based tagging):是基于规则的标注与基于统计机器学习模型的的结合
- 基于记忆的标注(memory-based tagging)
英语词的分类
- 封闭类(closed class):包含的单词成员相对固定的词类,封闭类的单词又称为虚词(function words)。
- 介词(prepositions):语义上表示关系。通常是空间或时间的关系。On, under, over, near, by, at, from, to, with
- 限定词(determiners):与名词一起出现,常常作为名词短语开始的标记。a, an, the
- 冠词(article)
- 无定冠词:a, an
- 有定冠词:the(有定性(definiteness)是话语和语义的一个特性)
- 代词(pronouns):she, who, I, others
- 连接词(conjunctions):用来连接两个短语、分句或者句子。and, but, or, as, if, when
- 并列连接词(coordinating conjunction):连接地位平等的两个成分
- 助动词(auxiliary verbs):can, may, should, are
- 系动词(copula):be, do, have
- 情态动词(modal verb):
- 小品词(particles):与动词结合起来一起使用,把意义加以扩展。up, down, on, off, in, out, at, by
- 短语动词(phrasal verb):动词与小品词结合形成一个独立的句法或者语义单位的组合。
- 数词(numerals):one, two, three, first, second, third
- 叹词(interjections)
- 否定词(negatives)
- 礼貌标志词(politeness markers)
- 问候词(greetings)
- 表示存在的 there
- 开放类(open class):包含的单词成员经常变化。
- 名词(nouns)
- 专有名词(proper noun)
- 普通名词(common noun)
- 可数名词(count noun)
- 物质名词(mass noun)
- 动词(verbs)
- 形容词(adjectives)
- 副词(adverbs)
- 方位副词(directional adverbs)或地点副词(locative adverbs):说明某个行为的方向或地点
- 程度副词(degree adverbs):说明某个动作、过程或性质延伸的程度
- 方式副词(manner adverbs):描述某个行为或者过程的方式
- 时间副词(temporal adverbs):描述某个行为或者事件发生的时间
英语的标记集
- Brown 语料库的 87 个标记
- Penn Treebank 的 45 个标记,是小型标记集
- CLAWS 的 C5 标记集,61 个标记,是中型标记集
词类标注
词类标注(Part-of-speech tagging,POS tagging)简称为标注(tagging),给语料中的每一个单词指派一个词类或者其他句法类别标记的过程。
先进行词例还原,才可以完成词类标注,词类标注的困难就是歧义消解(ambiguity resolve)。
基于规则的词类标注算法
词类自动标注算法使用两阶段的体系结构:
- 使用一部词典给每一个单词指派一个潜在的词类表;
- 使用一个手工书写的排歧规则筛选原来的潜在词类表,使每个单词得到一个单独的词类标记。
EngCG 标注算法(EngCG tagger)是最全面的基于规则的词类标注算法,是使用约束语法的方法。EngCG 中的词典 ENGTWOL 是建立在双层形态学(Ref:Ch3)基础上的