《模式识别与机器学习》的第三章

ZhuYuanxiang 2019-04-15 00:00:00
Categories: Tags:

Ch 03. 回归的线性模型

提纲

重点

难点

学习要点

3.1. 线性基函数模型

线性回归 ( Linear Regression ) :输入变量的线性组合。

线性基函数:输入变量的固定的非线性函数的线性组合。

基函数 ( Basis Function ) $\phi_j ( \text{x} )$ 的选择

3.1.1. 最大似然与最小平方

平方和误差函数 等价于 高斯噪声模型的下的最大似然解。

线性:有噪声:函数建模

线性:有噪声:概率建模

似然函数:

$$
p ( \mathbf{t}|\text{X,w},\beta ) = \prod_{n=1}^N \mathcal{N} ( t_n|\text{w}^T\phi ( \text{x}_n ) ,\beta^{-1} ) \tag{3.10}
$$

因为输入变量 $x$ 不是求解目标,并且一直存在于条件变量中,因此简化表达式为
$$
p ( \mathbf{t}|\text{X,w},\beta ) = p ( \mathbf{t}|\text{w},\beta )
$$

对数似然函数

$$
\begin{aligned}
\ln p ( \mathbf{t}|\text{w},\beta )
&= \sum_{n=1}^N \ln \mathcal{N} ( t_n|\text{w}^T\phi ( \text{x}_n ) ,\beta^{-1} ) \
&= \frac{N}2\ln\beta-\frac{N}2\ln ( 2\pi ) -\beta E_D ( \text{w} )
\end{aligned}\tag{3.11}
$$

平方和误差函数

$$
E_D ( \text{w} ) =\frac12\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2\tag{3.12}
$$

对数似然函数关于参数 $\text{w}$ 求导等于零

$$
\nabla_{\text{w}}\ln p ( \mathbf{t}|\text{w},\beta ) = \beta \sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }\phi ( \text{x}_n )^T = 0
$$

得到极值 $\text{w}_{ML}$ 称之为「最小二乘问题」的「规范方程」( normal equation )

单独求解偏置参数 $w_0$

求解噪声精度参数 $\beta$

$$
\frac1{\beta_{ML}}=\frac1N\sum_{n=1}^N{t_n-\text{w}_{ML}^T\phi ( \text{x}_n ) }^2\tag{3.21}
$$

3.1.2. 最小平方的几何描述

平方误差函数是 $y$ 和 $t$ 之间的欧氏距离的平方。

3.1.3. 顺序学习、在线学习

随机梯度下降 ( stochastic gradient descent ),也叫 顺序梯度下降 ( sequential gradient descent )

3.1.4. 正则化最小平方

误差函数: $E_D ( \text{w} ) +\lambda E_W ( \text{w} )$

具体案例

$$
\frac12\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2+\frac\lambda2\text{w}^T\text{w}\tag{3.27}
$$

3.1.5. 多个输出

多个输出:预测多于 1 个目标变量的数据,可以采用下面两种方法:

第一种方法

第二种方法 ( 更常用 )

$$
p ( \text{t|x,W},\beta ) = \mathcal{N} ( \text{t|W}^T\phi ( \text{x} ) ,\beta^{-1}\mathbf{I} )
$$

$$
\begin{aligned}
\ln p ( \text{T|X,W},\beta )
&=\sum_{n=1}^N \ln\mathcal{N} ( \text{t}_n|\text{W}^T\phi ( \text{x}n ) ,\beta^{-1}\mathbf{I} ) \
&=\frac{NK}2\ln ( \frac\beta{2\pi} ) -\frac{\beta}2\sum
{n=1}^N |\text{t}_n - \text{W}^T\phi ( \text{x}_n ) |^2
\end{aligned}
$$

3.2.「偏置——方差」分解

频率学家看待「模型复杂度问题」的角度是 “偏置——方差” 折中 ( bias-variance trade-off )

回归问题 ( Ref : Sec 1.5.5 )

估计的不确定性 ( 频率学派 )

前提条件

公式推导

$$
{y ( \text{x};\mathcal{D}_c ) -h ( \text{x} ) }^2
$$

$$
\begin{aligned}
y ( \text{x} ) - h ( \text{x} )
&= {y ( \text{x};\mathcal{D}c ) - \mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}c )] + \mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}_c )] - h ( \text{x} ) }^2\
&= {y ( \text{x};\mathcal{D}c ) - \mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}c )]}^2 + {\mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}_c )] - h ( \text{x} ) }^2 \
&+ 2{y ( \text{x};\mathcal{D}c ) - \mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}c )]}{\mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}_c )] - h ( \text{x} ) }
\end{aligned}
$$

$$
\begin{aligned}
\mathbb{E}{\mathcal{D}}[{ y ( \text{x};\mathcal{D} ) - h ( \text{x} ) }^2]
&=\int{ y ( \text{x};\mathcal{D} ) - h ( \text{x} ) }^2p ( \text{x} ) \text{dx}\
&= {\mathbb{E}
{\mathcal{D}}[y ( \text{x};\mathcal{D} ) - h ( \text{x} )]}^2
+ \mathbb{E}{\mathcal{D}}[{ y ( \text{x};\mathcal{D} ) -\mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}] ) }^2]\
&+\mathbb{E}\mathcal{D}[2{y ( \text{x};\mathcal{D} ) - \mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D} )]}{\mathbb{E}_{\mathcal{D}}[y ( \text{x};\mathcal{D} )] - h ( \text{x} ) }]\
&= ( \text{偏置} )^2+\text{方差}+0
\end{aligned}
$$

总结

3.3. 贝叶斯线性回归

在最大似然估计中需要确定模型的复杂度以避免过拟合问题,解决模型复杂度需要使用分割数据集求平均的方式又存在无法有效利用数据问题,并且增加了计算量。

在贝叶斯估计中,既能够避免过拟合问题,还可以基于训练数据确定模型复杂度。

3.3.1. 参数分布

参数分布:引入模型参数 $\text{w}$ 的先验概率分布

前提条件

公式推导 ( Eq 2.116 的推导 )

具体案例

$$
\begin{aligned}
\ln p ( \text{w}|\mathbf{t} )
&=-\frac\beta2\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}n ) }^2 - \frac\alpha2\text{w}^T\text{w} + \text{const}\
&=-\frac12\sum
{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2 - \frac12\frac{\alpha}{\beta}\text{w}^T\text{w} + \text{const}
\end{aligned}
$$

$$
E_D ( \text{w} ) +\lambda E_W ( \text{w} ) =\frac12\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2 + \frac{\lambda}2\text{w}^T\text{w}\tag{3.27}
$$

$$
p ( \text{w}|\alpha ) =[\frac{q}2 ( \frac\alpha2 )^{1/q}\frac1{\Gamma ( 1/q )}]^M\exp ( -\frac\alpha2\sum_{j=0}^{M-1}|w_j|^q ) \tag{3.56}
$$

3.3.2. 预测值的分布

预测分布 ( predictive distribution ) :用于帮助新的 $x$ 值预测出 $t$ 的值。

$$
p ( t|\text{x,w},\beta ) =\mathcal{N} ( t|y ( \text{x,w},\beta^{-1} )) \tag{3.8}
$$

3.3.4. 等价核

预测均值

$$
y ( \text{x},\text{m}_N ) =\text{m}_N^T\phi ( \text{x} ) =\beta\phi ( \text{x} )^T\text{S}N\Phi^T\mathbf{t} = \sum{n=1}^N\beta\phi ( \text{x} )^T \text{S}_N\phi ( \text{x}n ) \mathbf{t}=\sum{n=1}^N k ( \text{x},\text{x}_n ) t_n
$$

3.4. 基于贝叶斯方法的模型比较

( 从贝叶斯的角度考虑模型选择问题,如果理解有困难,还可以参考 [^Duda,2003] Ch 09. P 392 )

模型证据 ( model evidence ) :表达了数据展现出的不同模型的优先级。也叫边缘似然 ( marginal likelihood )。因为可以被看作模型空间中的似然函数。还是估计参数的后验分布时出现在贝叶斯定理的分母中的归一化项。

贝叶斯因子 ( Bayes factor ) ${p ( \mathcal{D}|\mathcal{M}_i )}/{p ( \mathcal{D}|\mathcal{M}_j )}$:是两个模型的模型证据的比值。

模型有一个参数 $w$ 的情形

模型有 M 个参数的情形

预测分布:对各个模型的预测分布 $p ( t|\text{x},\mathcal{M}_i,\mathcal{D} )$ 求加权平均,权值为这些模型的后验概率 $p ( \mathcal{M}_i|\mathcal{D} )$。

$$
p ( t|\text{x},\mathcal{D} ) =\sum_{i=1}^L p ( t|\text{x},\mathcal{M}_i,\mathcal{D} ) p ( \mathcal{M}_i|\mathcal{D} )
$$

模型选择 ( model selection ) :对于「模型求平均」的简单近似是使用最有可能的模型做预测。

贝叶斯模型比较

最优评估方式:保留一个独立的测试数据集,使用这个数据集来评估最终系统的表现。

3.5. 证据的近似计算

近似计算方法用于解决模型证据中无法对所有的变量进行完整积分的问题。

公式推导

最大化对数证据

证据函数的计算与最大化 ( 有点难,建议手工推导,看懂图的含义,对于理解贝叶斯模型比较有帮助 )

3.5.1 计算证据函数

边缘似然函数

$$
p ( \mathbf{t}|\alpha,\beta )
=\int p ( \mathbf{t}|\text{w},\beta ) p ( \text{w}|\alpha ) \text{dw}
$$

计算积分的方法

$$
p ( y ) =\mathcal{N} ( y|A\mu+b,L^{-1}+A\Lambda^{-1}A^T )
$$

比较多元高斯分布的归一化系数,关于 $\text{w}$ 的积分计算
$$
\begin{aligned}
\int\exp{-E ( \text{w} ) }\text{dw}
&=\exp{-E ( \text{m}_N ) } \int\exp{-\frac12 ( \text{w-m}_N ) A\text{w-m}_N ) }\text{dw}\
&=\exp{-E ( \text{m}_N ) } ( 2\pi )^{M/2}|A|^{-1/2}
\end{aligned}
$$

模型证据函数:基于边缘似然函数 ( Eq 3.78 ) 的对数得
$$
\ln p ( \mathbf{t}|\alpha,\beta ) =\frac{M}2\ln\alpha+\frac{N}2\ln\beta-E ( \text{m}_N ) -\frac12\ln|A|-\frac{N}2\ln ( 2\pi ) \tag{3.86}
$$

( 理解 Fig 3.14,明白模型对数证据与阶数 $M$ 之间的关系 )

3.5.2 最大化证据函数

边缘似然函数 ( Eq 3.78 ) 关于 $\alpha$ 的最大化

$$
\frac{d}{d\alpha}\ln|A| = \frac{d}{d\alpha}\ln\prod_i ( \lambda_i+\alpha ) = \frac{d}{d\alpha}\sum_i\ln ( \lambda_i+\alpha ) = \sum_i\frac1{\lambda_i+\alpha}
$$

$$
0=\frac{M}{2\alpha}-\frac12\text{m}_N^T\text{m}_N-\frac12\sum_i\frac1{\lambda_i+\alpha}
$$

$$
\alpha\text{m}_N^T\text{m}_N=M-\alpha\sum_i\frac1{\lambda_i+\alpha}=\gamma\tag{3.90}
$$

$$
\gamma=\sum_i\frac{\lambda_i}{\lambda_i+\alpha}\tag{3.91}
$$

$$
\alpha=\frac{\gamma}{\text{m}_N^T\text{m}_N}
$$

边缘似然函数 ( Eq 3.78 ) 关于 $\beta$ 的最大化
$$
\frac{d}{d\beta}\ln|A| = \frac{d}{d\beta}\sum_i\ln ( \lambda_i+\alpha ) = \frac1\beta\sum_i{\lambda_i}{\lambda_i+\alpha} = \frac{\gamma}{\beta}
$$

$$
0=\frac{N}{2\beta}-\frac12\sum_{n=1}^N{t_n-\text{m}_N^T\phi ( \text{x}_n ) }^2-\frac{\gamma}{2\beta}\tag{3.94}
$$

$$
\frac1\beta=\frac1{N-\gamma}\sum_{n=1}^N{t_n-\text{m}_N^T\phi ( \text{x}_n ) }^2\tag{3.95}
$$

3.5.3 参数的有效数量

( Eq 3.91 ) 的 $\gamma$ 度量了已经良好确定的参数的数目。

对比 $\beta$ 的估计公式

极限情况 $N>>M$,基于 ( Eq 3.87 ) 可知特征值 $\lambda_i$ 随着数据集规模的增加而增大,可得

$$
\begin{aligned}
\gamma&=M\
\alpha&=\frac{M}{2E_W ( \text{m}_N )}\
\beta&=\frac{M}{2E_D ( \text{m}_N )}
\end{aligned}
$$

3.6. 固定基函数的局限性

真实数据集的两个性质

03. 小结

这章的标题在许多模式识别与机器学习的书中都见过,但是作者采用贝叶斯和核函数的视角来分析和解释这个模型,使模型的理解难度加大,但是对于知识的扩展和补充很有裨益。如果对贝叶斯方法了解不足,可以参考 [^Duda,2003] 和 [^Andrew,2004],虽然这些书中的内容并不能减轻阅读这一章的难度,但至少可以为理解贝叶斯方法打下基础