贝叶斯学习

ZhuYuanxiang 2020-10-12 18:15:39
Categories: Tags:

贝叶斯学习

贝叶斯学习算法的作用:

贝叶斯学习算法能够计算显式的假设概率。

贝叶斯学习算法可能帮助理解其他学习算法。

贝叶斯学习算法的优点:

贝叶斯学习算法的缺点:

贝叶斯法则

最佳假设:在给定数据D和某些初始知识下的最有可能的假设,这些初始知识是假设空间H中不同假设的先验概率。

先验概率:$p(h)$表示没有训练数据前假设h拥有的初始概率。

后验概率:$p(h|D)$表示拥有训练数据D后h成立的概率,也称为置信度。

贝叶斯公式:$p(h|D)=\frac{p(D|h)p(h)}{p(D)}$

最大后验估计:
$$
\begin{align}
h_{MAP}&\equiv\arg\max_{h\in H}p(h|D)\
&=\arg\max_{h\in H}\frac{p(D|h)p(h)}{p(D)}\
&=\arg\max_{h\in H}p(D|h)p(h)
\end{align}
$$
最大似然估计:假定H中每个假设拥有相同的先验概率$p(h_i)=p(h_j)$。任一学习算法输出的假设预测和训练数据之间的误差平方最小化,其输出等价于最大似然估计。
$$
h_{ML}=\arg\max_{h\in H} p(D|h)
$$

贝叶斯最优分类器

朴素贝叶斯分类器

前提:在给定目标值时属性值之间相互条件独立。
$$
y_{MAP}=\arg\max_{y_j\in Y} p(y_j|x_1,x_2,\dots,x_n)
$$
$p(x_1,x_2,\dots,x_n|y_j)$

二维数据

最大似然估计^2

模型:
$$
\begin{align}
p(y|x,\mathbf{w},\beta)
&=\mathcal{N}(y|f_\mathbf{w}(x),\beta^{-1})
=(\frac{\beta}{2\pi})^{1/2}\exp[-\frac{\beta}{2}(y-f_\mathbf{w}(x))]\
p(\mathbf{y}|\mathbf{x},\mathbf{w},\beta)
&=\prod_{n=1}^N\mathcal{N}(y_n|f_\mathbf{w}(x_n),\beta^{-1})\
J(\mathbf{w}) =\ln p(\mathbf{y}|\mathbf{x},\mathbf{w},\beta)
&=-\frac{\beta}{2}\sum_{n=1}^N[y_n-f_\mathbf{w}(x_n)]^2+\frac{N}{2}\ln\beta-\frac{N}{2}\ln(2\pi)
\end{align}
$$

参数估计:$\arg\max_\mathbf{w} J(\mathbf{w})$
$$
\begin{align}
\nabla_\mathbf{w} \ln p(\mathbf{y}|\mathbf{x},\mathbf{w},\beta)
&=\nabla_\mathbf{w}(-\frac{\beta}{2}\sum_{n=1}^N[y_n-f_\mathbf{w}(x_n)]^2)\
&\propto\sum_{n=1}^N[y_n-f_\mathbf{w}(x_n)]\nabla_\mathbf{w}(f_\mathbf{w}(x_n))
\end{align}
$$
其本质与最小二乘法相同。

最大后验估计

引入多项式系数$\mathbf{w}$的先验分布$p(\mathbf{w}|\alpha)$,其中$\alpha$称为超参数。
$$
p(\mathbf{w}|\alpha)
=\mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}\mathbf{I})
=(\frac{\alpha}{2\pi})^{(\frac{D+1}{2})}\exp(-\frac{\alpha}{2}\mathbf{w}^T\mathbf{w})
$$

$$
p(\mathbf{w}|\mathbf{x},\mathbf{y},\alpha,\beta)
\propto
p(\mathbf{y}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha)
$$
模型:
$$
\arg\min_\mathbf{w}\frac{\beta}{2}\sum_{n=1}^N[y_n-f_\mathbf{w}(x_n)]^2+\frac{\alpha}{2}\mathbf{w}^T\mathbf{w}
$$

其本质与正则最小二乘法相同。

D维数据

参考文献

[^1]:Tom M. Mitchell,《机器学习》Ch06

[^4]:Richard O. Dua, 《模式分类》第二版 Ch03