《自然语言处理综论》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00
Categories: Tags:

Ch05 词类标注

词类(Part-of-Speech,POS),又称为单词类别(word classes)、形态类别(morphological classes)或者词汇标记(lexical tags)。

词类标注(part-of-speech tagging):把词类指派给单词。

词类标注的常用方法:

英语词的分类

英语的标记集

词类标注

词类标注(Part-of-speech tagging,POS tagging)简称为标注(tagging),给语料中的每一个单词指派一个词类或者其他句法类别标记的过程。

先进行词例还原,才可以完成词类标注,词类标注的困难就是歧义消解(ambiguity resolve)。

基于规则的词类标注算法

词类自动标注算法使用两阶段的体系结构:

EngCG 标注算法(EngCG tagger)是最全面的基于规则的词类标注算法,是使用约束语法的方法。EngCG 中的词典 ENGTWOL 是建立在双层形态学(Ref:Ch3)基础上的

基于 HMM 模型的词类标注算法

基于转换的词类标注算法

评测和错误分析

词类标注中的高级专题

拼写中的噪声信道模型

5.10 小结