《基于深度学习的自然语言处理》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00
Categories: Tags:

C08. 从文本特征到输入

8.1 编码分类特征

8.1.1 独热编码

文章的 One-Hot 编码:每一维对应一个单独特征,因此结果特征向量为高维指示向量 的组合。

8.1.2 稠密编码 ( 特征嵌入 )

稠密编码:每个核心特征都被嵌入到 $d$ 维空间中,并且使用空间中的一个向量表示一个特征。例如:100维空间嵌入词特征,20维空间嵌入词类(POS)特征。

嵌入向量(每个核心特征的向量表示)作为网络的参数与函数中的其他参数一起被训练。

基于前馈神经网络的NLP分类系统的结构:

对输入来说,从线性分类器到深度分类器的最大变化是特征的变化,即特征从单独一维的稀疏表示到把每个特征映射到一个向量的稠密表示。并且不再需要做特征组合,只需要抽取核心特征。

8.1.3 稠密向量与独热表示

独热表示:每个特征拥有一个自己的维度

稠密表示:每个特征为一个 $d$ 维向量

使用的区别