《基于深度学习的自然语言处理》学习笔记

ZhuYuanxiang 2019-06-06 00:00:00
Categories: Tags:

C02. 学习基础与线性模型

2.1 有监督学习和参数化函数

有监督机器学习:通过观测样例进而产生泛化的机制。

2.2 训练集、测试集和验证集

留一法

留存集

三路划分

2.3 线性模型

2.3.1 二分类

基于线性可分数据集的二分类问题中,只有一个输出。线性模型的数学描述:
$$
\hat{y}=\text{sign}(f(\pmb{x}))=\text{sign}(\pmb{x\cdot w)}+b)=\text{sign}(size\times w_1+price\times w_2+b)
$$

基于非线性可分数据集的二分类问题的解决方案

特征表示:创建一个特征抽取函数,把真实世界的对象映射成一个可测量量度的向量,将这个向量作为模型的输入。

2.3.2 对数线性二分类

使用sigmoid 函数可以得到决策的置信度或者分类器分配这个类别的概率$\hat{y}=\sigma(f(\pmb{x}))=\frac1{1+\exp{-(\pmb{x\cdot w}+b)}}$。

Sigmoid函数$\sigma(x)=\frac1{1+e^{-x}}$是单词递增的,输入映射为$[0,1]$

2.3.3 多分类

一个实例分配到$k$个不同的类别中的一个$\text{prediction}=\hat{y}=\arg\max_{i}\hat{\pmb{y}}_{[i]}$

2.4 表示

基于文档训练模型,输出的向量就是这个文档的表示(Representation),因为向量抓住了文档的重要属性。这个表示更加紧凑,更加针对语言预测对象。

表示是深度学习的核心。深度学习的主要能力就是学习好的表示能力。

2.5 独热向量表示和稠密向量表示

词袋(Bag of Words,BOW),称作平均二元对词袋(Averaged Bag of Bigrams),或者叫平均词袋(Averaged Bag of Words),表示包含文档中所有单词的不考虑次序的个性信息。

独热向量表示:可以被认为是单一单词的词袋。

连续单词词袋(Continuous Bag of Words,CBOW):由低维度连续向量的单词表示的总和组成。表示可以通过求单词表示向量的和 或者 通过将一个单词词袋向量乘以一个每一行对应于一个稠密单词表示的矩阵(这个矩阵是嵌入矩阵)来得到。