Ch 03. 回归的线性模型
提纲
重点
- 线性基函数模型 ( Sec 3.1 )
- 贝叶斯线性回归 ( Sec 3.3 )
- 二次正则化项 ( Eq 3.27 )
难点
- 贝叶斯模型比较 ( Sec 3.4 )
- 证据近似 ( Sec 3.5 )
学习要点
- 回归问题:在给定输入变量 $\text{x}\in\mathcal{R}^D$ 的情况下,预测一个或者多个连续目标变量 $t$ 的值
- 线性回归模型:具有可调节的参数,具有线性函数的性质
- 输入变量的线性函数:最简单的形式
- 参数的线性函数:将一组输入变量的非线性函数 ( 基函数 ) 进行线性组合
- 依然具有简单的分析性质;
- 同时关于输入变量是非线性的。
- 非线性变换不会消除数据中的重叠,甚至还可能增加重叠的程度或者在原始观测空间中不存在重叠的地方产生出新的重叠。
- 恰当地选择非线性变换可以让后验概率的建模过程更加简单。
3.1. 线性基函数模型
线性回归 ( Linear Regression ) :输入变量的线性组合。
- 回归问题的最简单模型
- $y ( \text{x,w} ) =w_0+w_1 x_1+\cdots+w_Dx_D$
- $\text{x}= ( x_1,\cdots,x_D )^T$
- $y ( \text{x,w} )$是参数 $w_0,\cdots,w_D$ 的线性函数
线性基函数:输入变量的固定的非线性函数的线性组合。
- 原始模型 ( Eq 3.3 ) : $y ( \text{x,w} ) =w_0+\sum_{j=1}^{M-1}w_j\phi_j ( \text{x} )$
- 偏置参数 ( bias parameter ) $w_0$:使得数据中可以存在任意固定的偏置。
- 简化模型: $y ( \text{x,w} ) = \sum_{j=0}^{M-1}w_j\phi_j ( \text{x} ) = \text{w}^T\text{x}$
- 定义一个虚「基函数」$\phi_0 ( \text{x} ) =1$,简化数学模型。
基函数 ( Basis Function ) $\phi_j ( \text{x} )$ 的选择
- 线性无关函数集: $k_1=k_2=k_3=0, k_1 f_1 ( \cdot ) + k_2 f_2 ( \cdot ) + k_3 f_3 ( \cdot ) =0$
- 多项式基函数:$\phi_j ( x ) =x^j$,$x$ 的幂指数形式
- 局限性:输入变量的全局函数,因此对于输入空间中一个区域的改变将会影响所有其他的区域。
- 解决办法:样条函数 ( spline function )。把输入空间切分成若干个区域,然后对于每个区域用不同的多项式函数拟合。
- 高斯基函数: $\phi_j ( x ) =\exp[-\frac{( x-\mu_j )^2}{2s^2}]$
- Sigmoid 基函数 :$\phi_j ( x ) =\sigma ( \frac{x-\mu_j}{s} )$
- Logistic Sigmoid 函数:$\sigma ( a ) =\frac1{1+\exp ( -a )}$
- 多项式基函数:$\phi_j ( x ) =x^j$,$x$ 的幂指数形式
- 规范正交函数集: $f_i ( \cdot ) f_j ( \cdot ) =\begin{cases} 1 & i=j\ 0, & i\neq j\end{cases}$
- Fourier 基函数:使用正弦函数展开。每个基函数代表一个频率,在空间中有无限的延伸。是规范正交函数集
- 小波 ( wavelet ) 基函数
3.1.1. 最大似然与最小平方
平方和误差函数 等价于 高斯噪声模型的下的最大似然解。
线性:有噪声:函数建模
- $t = y ( \text{x,w} ) + \epsilon$
- $y\in\mathcal{R}, \text{x}\in\mathcal{R}^{D}, \text{w}\in\mathcal{R}^{D+1}, \epsilon\sim\mathcal{N} ( 0,\beta^{-1} ) , \sigma\in\mathcal{R}$
- ( Eq_3.8 ) : $p ( t|\text{x,w},\beta ) =\mathcal{N} ( t|y ( \text{x,w} ) ,\beta^{-1} )$
- 条件均值: $\mathbb{E}[t|\text{x}]=\int t p ( t|\text{x} ) \text{d}t = y ( \text{x,w} )$
- 前提条件
- 噪声服从高斯分布
- 目标变量的条件分布 $p ( t|\text{x} )$ 也服从高斯分布
- 补充:这里处理的是单峰的高斯分布,( Sec 14.5.1. ) 扩展到多峰的高斯分布
- 前提条件
线性:有噪声:概率建模
似然函数:
$$
p ( \mathbf{t}|\text{X,w},\beta ) = \prod_{n=1}^N \mathcal{N} ( t_n|\text{w}^T\phi ( \text{x}_n ) ,\beta^{-1} ) \tag{3.10}
$$
因为输入变量 $x$ 不是求解目标,并且一直存在于条件变量中,因此简化表达式为
$$
p ( \mathbf{t}|\text{X,w},\beta ) = p ( \mathbf{t}|\text{w},\beta )
$$
对数似然函数
$$
\begin{aligned}
\ln p ( \mathbf{t}|\text{w},\beta )
&= \sum_{n=1}^N \ln \mathcal{N} ( t_n|\text{w}^T\phi ( \text{x}_n ) ,\beta^{-1} ) \
&= \frac{N}2\ln\beta-\frac{N}2\ln ( 2\pi ) -\beta E_D ( \text{w} )
\end{aligned}\tag{3.11}
$$
平方和误差函数
$$
E_D ( \text{w} ) =\frac12\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2\tag{3.12}
$$
对数似然函数关于参数 $\text{w}$ 求导等于零
$$
\nabla_{\text{w}}\ln p ( \mathbf{t}|\text{w},\beta ) = \beta \sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }\phi ( \text{x}_n )^T = 0
$$
得到极值 $\text{w}_{ML}$ 称之为「最小二乘问题」的「规范方程」( normal equation )
- $\text{w}_{ML} = ( \Phi^T\Phi )^{-1}\Phi^T\mathbf{t}=\Phi^\dagger\mathbf{t}$
- 设计矩阵 ( Eq 3.16 ) :$\Phi=\begin{bmatrix} \phi_0 ( \mathbf{x}1 ) & \phi_1 ( \mathbf{x}1 ) & \cdots & \phi{M} ( \mathbf{x}1 ) \ \phi_0 ( \mathbf{x}2 ) & \phi_1 ( \mathbf{x}2 ) & \cdots & \phi{M} ( \mathbf{x}2 ) \ \vdots & \vdots & \ddots & \vdots \ \phi_0 ( \mathbf{x}{N} ) & \phi_1 ( \mathbf{x}{N} ) & \cdots & \phi{M} ( \mathbf{x}{N} ) \ \end{bmatrix}$
- $\Phi\in\mathcal{R}^{( N\times M )}$
- $\Phi_{nj}=\phi_j ( \text{x}_n )$
- Moore-Penrose 伪逆矩阵 ( pseudo-inverse matrix ) : $\Phi^\dagger\equiv ( \Phi^T\Phi )^{-1}\Phi^T$
- 如果 $\Phi$ 是方阵并且可逆,则基于 $( AB )^{-1} = B^{-1} A^{-1}$ 性质,得 $\Phi^\dagger \equiv \Phi^{-1}$
- 设计矩阵 ( Eq 3.16 ) :$\Phi=\begin{bmatrix} \phi_0 ( \mathbf{x}1 ) & \phi_1 ( \mathbf{x}1 ) & \cdots & \phi{M} ( \mathbf{x}1 ) \ \phi_0 ( \mathbf{x}2 ) & \phi_1 ( \mathbf{x}2 ) & \cdots & \phi{M} ( \mathbf{x}2 ) \ \vdots & \vdots & \ddots & \vdots \ \phi_0 ( \mathbf{x}{N} ) & \phi_1 ( \mathbf{x}{N} ) & \cdots & \phi{M} ( \mathbf{x}{N} ) \ \end{bmatrix}$
单独求解偏置参数 $w_0$
- 平方和误差函数: $E_D ( \text{w} ) =\frac12\sum_{n=1}^N{t_n - w_0 - \sum_{j=1}^{M-1}w_j\phi_j ( \text{x} ) }^2$
- 关于 $w_0$ 求导,得 $w_0 = \bar{t} - \sum_{j=1}^{M-1}w_j\bar{\phi}_j ( \text{x} )$
- $\bar{t}=\frac1N\sum_{n=1}^N t_n$
- $\bar{\phi}j=\frac1N\sum{n=1}^N \phi_j ( \text{x}_n )$
- $w_0$ 补偿了 训练集上的目标值的平均值 与 基函数的值的平均值 的加权求和之间的差
求解噪声精度参数 $\beta$
- 噪声精度的倒数 是 目标值在回归函数周围的残留方差 ( residual variance ) 的 均值
$$
\frac1{\beta_{ML}}=\frac1N\sum_{n=1}^N{t_n-\text{w}_{ML}^T\phi ( \text{x}_n ) }^2\tag{3.21}
$$
3.1.2. 最小平方的几何描述
平方误差函数是 $y$ 和 $t$ 之间的欧氏距离的平方。
- $N$ 个目标数据 $t_n$ 张成 一个 $N$ 维空间
- $\mathbf{t}= ( t_1,\cdots,t_N )$ 是一个 $N$ 维向量
- $\mathbf{y}= ( y ( x_1,\text{w} ) ,\cdots,y ( x_N,\text{w} )$ 是一个 $N$ 维向量
- $\varphi_j= ( \phi_j ( x_1 ) ,\cdots,\phi_j ( x_N ))$ 是一个 $N$ 维向量
- 如果 $N>M$,则 $M$ 个 向量 $\varphi_j$ 张成 $M$ 维 的 子空间 $S$
- $\mathbf{y}$ 是 $\mathbf{t}$ 在子空间 $S$ 上的正交投影。
- $w$ 的最小平方解就是 $\mathbf{y}$ 与 $\mathbf{t}$ 之间的距离
- 当 $\Phi^T\Phi$ 接近奇异矩阵时,直接求解规范方程存在困难,可以使用 SVD ( 奇异值分解 ) 来解决。
3.1.3. 顺序学习、在线学习
随机梯度下降 ( stochastic gradient descent ),也叫 顺序梯度下降 ( sequential gradient descent )
- 数据点和误差函数:$E=\sum_n E_n$
- 更新公式 ( Eq 3.22 ) : $\text{w}^{( \tau+1 )}=\text{w}^{( \tau )}-\eta\nabla E_n$
- 平方误差函数:$E_D ( \text{w} ) =\frac12 \sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2$
- 更新公式: $\text{w}^{( \tau+1 )}=\text{w}^{( \tau )} + \eta ( t_n - ( \text{w}^{( \tau )} )^T \phi_n ) \phi_n$
- 这个误差函数 的 随机梯度下降算法,也叫 最小均方误差算法 ( Least Mean Squares, LMS )。
3.1.4. 正则化最小平方
误差函数: $E_D ( \text{w} ) +\lambda E_W ( \text{w} )$
- 基于数据的误差: $E_D ( \text{w} )$
- 正则化项:$E_W ( \text{w} )$
- λ 是正则化系数
具体案例
- 平方和误差函数
- ( Eq 3.26 ) : $E_D ( \text{w} ) =\frac12\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2$
- 二次正则化项
- $E_W ( \text{w} ) = \frac12\text{w}^T\text{w}$
$$
\frac12\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2+\frac\lambda2\text{w}^T\text{w}\tag{3.27}
$$
- 正则化项的选择方法,在机器学习的文献中被称为权值衰减 ( weight decay )
- 在顺序学习算法中,「权值」向零的方向衰减
- 正则化项的选择方法,在统计学习中称为参数收缩 ( parameter shrinkage )
- 在顺序学习算法中,「参数的值」向零的方向收缩
- 其他类型的 正则化项
- q=1 的情形被称为套索 ( lasso )
- 性质为:如果 λ 充分大,那么某些系数会变为零,从而产生一个稀疏 ( sparse ) 模型。
- q=1 的情形被称为套索 ( lasso )
- 正则化方法通过限制模型的复杂度,使得复杂的模型在有限大小的数据集上进行训练,而不会产生严重的过拟合问题。
- 使得确定最优的模型复杂度的问题从确定合适的基函数数量的问题转移到了确定正则化系数λ的合适值的问题。
3.1.5. 多个输出
多个输出:预测多于 1 个目标变量的数据,可以采用下面两种方法:
第一种方法
- 对于 $\mathbf{t}$ 的每个分量,引入一个不同的基函数集合,从而转化为多个独立的回归问题
第二种方法 ( 更常用 )
- 对目标向量的所有分量使用一组相同的基函数来建模
- $y ( \text{x,w} ) =W^T \phi ( \text{x} )$
- $\phi ( \text{x} ) = \phi_j ( \text{x} ) ,\phi_0 ( \text{x} ) =1$
- $y\in\mathcal{R}^K, W\in\mathcal{R}^{M\times K}, \phi ( \text{x} ) \in\mathcal{R}^M$
- $y ( \text{x,w} ) =W^T \phi ( \text{x} )$
- 假设目标向量的条件概率分布是一个各向同性的高斯分布
$$
p ( \text{t|x,W},\beta ) = \mathcal{N} ( \text{t|W}^T\phi ( \text{x} ) ,\beta^{-1}\mathbf{I} )
$$
- 对数似然函数
$$
\begin{aligned}
\ln p ( \text{T|X,W},\beta )
&=\sum_{n=1}^N \ln\mathcal{N} ( \text{t}_n|\text{W}^T\phi ( \text{x}n ) ,\beta^{-1}\mathbf{I} ) \
&=\frac{NK}2\ln ( \frac\beta{2\pi} ) -\frac{\beta}2\sum{n=1}^N |\text{t}_n - \text{W}^T\phi ( \text{x}_n ) |^2
\end{aligned}
$$
- 求解对数似然函数的最大似然估计
- $\text{W}_{ML}= ( \Phi^T\Phi )^{-1}\Phi^T\text{T}$
- $\text{w}_k= ( \Phi^T\Phi )^{-1}\Phi^T\text{t}_k = \Phi^\dagger\text{t}_k$
- $\text{t}k = ( t{1k},\cdots,t_{Nk} )^T$
- 保证不同目标变量的回归问题被分解成多个单目标变量的回归问题。
3.2.「偏置——方差」分解
频率学家看待「模型复杂度问题」的角度是 “偏置——方差” 折中 ( bias-variance trade-off )
回归问题 ( Ref : Sec 1.5.5 )
- 最优预测:$h ( \text{x} ) = \mathbb{E}_t [t|\text{x}] = \int t p ( t|\text{x} ) \text{d}t$
- 平方损失函数的期望:$\mathbb{E}[L]=\int{y ( \text{x} ) - h ( \text{x} ) }^2 p ( \text{x} ) \text{dx} + \int\int {h ( \text{x} ) -t}^2 p ( \text{x},t ) \text{dx d} t$
- $\int{y ( \text{x} ) - h ( \text{x} ) }^2 p ( \text{x} ) \text{dx}$ 与 $y ( \text{x} )$ 的选择有关,不同的选择会得到不同的回归函数的解 $h ( \text{x} )$,从而结果会无限逼近于零
- $\int\int {h ( \text{x} ) -t}^2 p ( \text{x},t ) \text{dx d} t$ 与 $y ( \text{x} )$ 的选择无关,是受数据的噪声影响,表示期望损失能够达到的最小值。
估计的不确定性 ( 频率学派 )
前提条件
- 多个数据集 $( \mathcal{D}_1,\cdots,\mathcal{D}_C )$
- 每个数据集 $\mathcal{D}_c$ 的大小都是 $N$
- 每个数据集 $\mathcal{D}_c$ 都独立地从分布 $p ( t,\text{x} )$ 中抽取的
- 考虑特定数据集 $\mathcal{D}_c$,得到预测函数 $y_c ( \text{x};\mathcal{D}_c )$
公式推导
- 单个数据集 $\mathcal{D}_c$,单个数据点 $\text{x}$
$$
{y ( \text{x};\mathcal{D}_c ) -h ( \text{x} ) }^2
$$
$$
\begin{aligned}
y ( \text{x} ) - h ( \text{x} )
&= {y ( \text{x};\mathcal{D}c ) - \mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}c )] + \mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}_c )] - h ( \text{x} ) }^2\
&= {y ( \text{x};\mathcal{D}c ) - \mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}c )]}^2 + {\mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}_c )] - h ( \text{x} ) }^2 \
&+ 2{y ( \text{x};\mathcal{D}c ) - \mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}c )]}{\mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}_c )] - h ( \text{x} ) }
\end{aligned}
$$
- 多个数据集,单个数据点 $\text{x}$,求期望
$$
\begin{aligned}
\mathbb{E}{\mathcal{D}}[{ y ( \text{x};\mathcal{D} ) - h ( \text{x} ) }^2]
&=\int{ y ( \text{x};\mathcal{D} ) - h ( \text{x} ) }^2p ( \text{x} ) \text{dx}\
&= {\mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D} ) - h ( \text{x} )]}^2
+ \mathbb{E}{\mathcal{D}}[{ y ( \text{x};\mathcal{D} ) -\mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}] ) }^2]\
&+\mathbb{E}\mathcal{D}[2{y ( \text{x};\mathcal{D} ) - \mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D} )]}{\mathbb{E}_{\mathcal{D}}[y ( \text{x};\mathcal{D} )] - h ( \text{x} ) }]\
&= ( \text{偏置} )^2+\text{方差}+0
\end{aligned}
$$
- 多个数据集,多个数据点 $\text{x}$,求积分
- ${( \text{偏置} )}^2 = \int {\mathbb{E}_{\mathcal{D}}[y ( \text{x};\mathcal{D} ) - h ( \text{x} )]}^2 p ( \text{x} ) \text{dx}$
- ${( \text{偏置} )}^2$:表示所有数据集的平均预测与预期的回归函数之间的差异;
- $\text{方差} = \int \mathbb{E}{\mathcal{D}}[{ y ( \text{x};\mathcal{D} ) -\mathbb{E}{\mathcal{D}}[y ( \text{x};\mathcal{D}] ) }^2] p ( \text{x} ) \text{dx}$
- $\text{方差}$:度量了对于单独的数据集,模型所给出的解在平均值附近变化的情况
- $\text{噪声} = \int\int {h ( \text{x} ) -t}^2 p ( \text{x},t ) \text{dx d} t$
- $\text{噪声}$:数据上叠加的常数噪声项。
- 平方损失函数展开后得:$\text{期望损失} = {( \text{偏置} )}^2 + \text{方差} + \text{噪声}$
- ${( \text{偏置} )}^2 = \int {\mathbb{E}_{\mathcal{D}}[y ( \text{x};\mathcal{D} ) - h ( \text{x} )]}^2 p ( \text{x} ) \text{dx}$
- 目标:最小化期望损失,在 偏置 与 方差 之间取得最优的平衡的模型
- 灵活的模型,偏置较小,方差较大。
- 固定的模型,偏置较大,方差较小。
- 例子: ( Fig 3.5 ) ,100 个数据集,25 阶模型
- $\bar{y} ( x ) =\frac1L\sum_{l=1}^L y^{( l )} ( x )$
- ${( \text{偏置} )}^2 = \frac1N\sum_{n=1}^N {\bar{y} ( x_n ) - h ( x_n ) }^2$
- $\text{方差} = \frac1N\sum_{n=1}^N \frac1L\sum_{l=1}^L {y^{( l )} ( x_n ) - \bar{y} ( x_n ) }^2$
总结
- 「偏置——方差」分解依赖于对所有的数据集求平均
- 因为无法有效应用所有的数据,因此产生了贝叶斯线性回归
3.3. 贝叶斯线性回归
在最大似然估计中需要确定模型的复杂度以避免过拟合问题,解决模型复杂度需要使用分割数据集求平均的方式又存在无法有效利用数据问题,并且增加了计算量。
在贝叶斯估计中,既能够避免过拟合问题,还可以基于训练数据确定模型复杂度。
3.3.1. 参数分布
参数分布:引入模型参数 $\text{w}$ 的先验概率分布
前提条件
似然函数: ( 噪声精度参数 $\beta$ 为已知常数 )
- ( Eq 3.10 ) :$p ( \mathbf{t}|\text{X,w},\beta ) =\prod_{n=1}^N \mathcal{N} ( \mathbf{t}_n|\text{x}^T\phi ( \text{x}_n ) ,\beta^{-1} )$
对应的共轭分布是高斯分布
- $p ( \text{w} ) =\mathcal{N} ( \text{w}|\text{m}_0,\text{S}_0 )$
- $\text{m}_0$为均值
- $\text{S}_0$为协方差
- $p ( \text{w} ) =\mathcal{N} ( \text{w}|\text{m}_0,\text{S}_0 )$
公式推导 ( Eq 2.116 的推导 )
- 后验概率:$p ( \text{w|t,X},\beta ) p ( \text{t} ) =p ( \text{t|X,w},\beta ) p ( \text{w} )$
- ( Eq 3.49 ) : $p ( \text{w}|\mathbf{t} ) = \mathcal{N} ( \text{w}|\text{m}_N,\text{S}_N )$
- ( Eq 3.50 ) : $\text{m}_N = \text{S}_N ( \text{S}_0^{-1}\text{m}_0 + \beta\Phi^T\mathbf{t} )$
- ( Eq 3.51 ) : $\text{S}_N^{-1} = \text{S}_0^{-1} + \beta\Phi^T\Phi$
- $\Phi$:设计矩阵 ( Eq 3.16 )
- ( Eq 3.49 ) : $p ( \text{w}|\mathbf{t} ) = \mathcal{N} ( \text{w}|\text{m}_N,\text{S}_N )$
具体案例
- 特定形式的先验
- ( Eq 3.52 ) : $p ( \text{w}|\alpha ) =\mathcal{N} ( \text{w}|\boldsymbol{0},\alpha^{-1}\mathbf{I} )$
- 参数 $\text{w}$ 受精度参数 $\alpha$ 控制
- ( Eq 3.52 ) : $p ( \text{w}|\alpha ) =\mathcal{N} ( \text{w}|\boldsymbol{0},\alpha^{-1}\mathbf{I} )$
- 后验概率
- $p ( \text{w}|\mathbf{t} ) = \mathcal{N} ( \text{w}|\text{m}_N,\text{S}_N )$
- $\text{m}_N = \beta\text{S}_N\Phi^T\mathbf{t}$
- $\text{S}_N^{-1} = \alpha\mathbf{I} + \beta\Phi^T\Phi$
- $\Phi$:设计矩阵 ( Eq 3.16 )
- $p ( \text{w}|\mathbf{t} ) = \mathcal{N} ( \text{w}|\text{m}_N,\text{S}_N )$
- 后验概率的对数
- w 的极值:最大化 ( 后验分布 ) 等价于 最小化 ( 平方和误差函数 + 二次正则化项 )
- ( Fig 3.7 ) 给出了贝叶斯学习的效果,以及基于贝叶斯的顺序学习的本质
$$
\begin{aligned}
\ln p ( \text{w}|\mathbf{t} )
&=-\frac\beta2\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}n ) }^2 - \frac\alpha2\text{w}^T\text{w} + \text{const}\
&=-\frac12\sum{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2 - \frac12\frac{\alpha}{\beta}\text{w}^T\text{w} + \text{const}
\end{aligned}
$$
- 与最大似然估计对比
- $\lambda = \frac\alpha\beta$
$$
E_D ( \text{w} ) +\lambda E_W ( \text{w} ) =\frac12\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2 + \frac{\lambda}2\text{w}^T\text{w}\tag{3.27}
$$
- 高斯先验分布的推广
- $q=2$ 表示高斯分布
$$
p ( \text{w}|\alpha ) =[\frac{q}2 ( \frac\alpha2 )^{1/q}\frac1{\Gamma ( 1/q )}]^M\exp ( -\frac\alpha2\sum_{j=0}^{M-1}|w_j|^q ) \tag{3.56}
$$
3.3.2. 预测值的分布
预测分布 ( predictive distribution ) :用于帮助新的 $x$ 值预测出 $t$ 的值。
- 预测分布的定义:$p ( t|\mathbf{t},\alpha,\beta ) = \int p ( t|\text{w},\beta ) p ( \text{w}|\mathbf{t},\alpha,\beta ) \text{dw}$
- $\mathbf{t}= ( t_1,\cdots,t_N )^T$:训练数据的目标变量的值组成的向量
- 目标变量的条件概率分布
$$
p ( t|\text{x,w},\beta ) =\mathcal{N} ( t|y ( \text{x,w},\beta^{-1} )) \tag{3.8}
$$
预测分布的计算(Eq 3.58):$p ( t|\text{x},\mathbf{t},\alpha,\beta ) = \mathcal{N} ( t|\text{m}_N^T\phi ( \text{x} ) ,\sigma_N^2 ( \text{x} ))$
- ( Eq 3.59 ) : $\sigma_N^2 ( \text{x} ) =\beta^{-1}+\phi ( \text{x} )^T\text{S}_N\phi ( \text{x} )$
- $\beta^{-1}$ :表示数据中的噪声
- $\phi ( \text{x} )^T\text{S}_N\phi ( \text{x} )$ :表示了与参数 $\text{w}$ 关联的不确定性,当 $N\rightarrow\infty$ 时,超于 0
- ( Eq 3.59 ) : $\sigma_N^2 ( \text{x} ) =\beta^{-1}+\phi ( \text{x} )^T\text{S}_N\phi ( \text{x} )$
( Fig 3.8 ) :每个点的预测方差与 $x$ 的函数关系
- 预测的不确定性依赖于数据 $x$,并且在数据点的领域内最小。
- 不确定性的程度随着观测数据的增多而逐渐减小
( Fig 3.9 ) :不同数据点 $x$ 的预测之间的协方差
3.3.4. 等价核
预测均值
$$
y ( \text{x},\text{m}_N ) =\text{m}_N^T\phi ( \text{x} ) =\beta\phi ( \text{x} )^T\text{S}N\Phi^T\mathbf{t} = \sum{n=1}^N\beta\phi ( \text{x} )^T \text{S}_N\phi ( \text{x}n ) \mathbf{t}=\sum{n=1}^N k ( \text{x},\text{x}_n ) t_n
$$
- ( Eq 3.3 ) : $y ( \text{x,w} ) =\sum_{j=0}^{M-1} w_j\phi_j ( \text{x} ) =\text{w}^T\phi ( \text{x} )$
- ( Eq 3.53 ) : $\text{m}_N = \beta\text{S}_N\Phi^T\mathbf{t}$
- ( Eq 3.51 ) : $\text{S}_N^{-1}=\text{S}_0^{-1}+\beta\Phi^T\Phi$
- 等价核 ( Eq 3.62 ) :$k ( \text{x},\text{x}’ ) =\beta\phi ( \text{x} )^T \text{S}_N\phi ( \text{x}’ )$
- ( Eq 3.49 ) : $p ( \text{w}|\mathbf{t} ) =\mathcal{N} ( \text{w}|\text{m}_N,\text{S}_N )$
- $\text{cov}[y ( \text{x} ) ,y ( \text{x}’ )]=\text{cov}[\phi ( \text{x} )^T\text{w},\text{w}^T\phi ( \text{x}’ )] = \phi ( \text{x} )^T\text{S}_N\phi ( \text{x}’ ) = \beta^{-1}k ( \text{x},\text{x}’ )$
- 等价核 ( equivalent kernel ) 也称为平滑矩阵 ( smoother matrix )
- 线性平滑 ( linear smoother ) :通过对训练集里目标值进行线性组合做预测。
- 等价核定义了模型的权值: $\sum_{n=1}^N k ( \text{x},\text{x}_n ) = 1$
- 距离 $x$ 较近的数据点可以赋予一个较高的权值,距离 $x$ 较远的数据点可以赋予一个较低的权值。
- 附近的点预测均值相关性较高,远处的点预测均值相关性较低。
- 等价核可以表示为非线性函数的向量的内积的形式: $k ( \text{x},\text{z} ) =\psi ( \text{x} )^T\psi ( \text{z} )$
- 用核函数表示线性回归模型的方法
- 线性基函数模型的后验均值可以解释为核方法,即隐式地定义了一个等价核
- 直接定义一个局部的核函数,然后在给定观测数据集的条件下,使用这个核函数对新的输入变量 $x$ 做预测,这个框架称为高斯过程 ( Gaussian process )
3.4. 基于贝叶斯方法的模型比较
( 从贝叶斯的角度考虑模型选择问题,如果理解有困难,还可以参考 [^Duda,2003] Ch 09. P 392 )
- 前提条件
- 模型:即观测数据集 $\mathcal{D}$ 上的概率分布
- 模型 ${\mathcal{M}_i},i=1,\cdots,L$ 的比较
- 后验分布: $p ( \mathcal{M}_i|\mathcal{D} ) \propto p ( \mathcal{M}_i ) p ( \mathcal{D}|\mathcal{M}_i )$
模型证据 ( model evidence ) :表达了数据展现出的不同模型的优先级。也叫边缘似然 ( marginal likelihood )。因为可以被看作模型空间中的似然函数。还是估计参数的后验分布时出现在贝叶斯定理的分母中的归一化项。
- $p ( \mathcal{D}|\mathcal{M}_i ) =\int p ( \mathcal{D}|\text{w},\mathcal{M}_i ) p ( \text{w}|\mathcal{M}_i ) \text{dw}$
贝叶斯因子 ( Bayes factor ) ${p ( \mathcal{D}|\mathcal{M}_i )}/{p ( \mathcal{D}|\mathcal{M}_j )}$:是两个模型的模型证据的比值。
模型有一个参数 $w$ 的情形
- $p ( \mathcal{D} ) =\int p ( \mathcal{D}|{w} ) p ( {w} ) \text{d}w\simeq p ( \mathcal{D}|{w}{MAP} ) \frac{\Delta{w}{\text{后验}}}{\Delta{w}_{\text{先验}}}$
- $\ln p ( \mathcal{D} ) \simeq\ln p ( \mathcal{D}|{w}{MAP} ) + \ln ( \frac{\Delta{w}{\text{后验}}}{\Delta{w}_{\text{先验}}} )$
- $\ln p ( \mathcal{D}|{w}{MAP} )$ : 基于最可能的参数 ( $w{MAP}$ ) 拟合数据
- $\ln ( \frac{\Delta{w}{\text{后验}}}{\Delta{w}{\text{先验}}} )$ : 根据模型的复杂度来惩罚模型,即 $\lambda= ( \frac{\Delta\text{w}{\text{后验}}}{\Delta\text{w}{\text{先验}}} )$
模型有 M 个参数的情形
- $\ln p ( \mathcal{D} ) \simeq\ln p ( \mathcal{D}|\text{w}{MAP} ) + M \ln ( \frac{\Delta\text{w}{\text{后验}}}{\Delta\text{w}_{\text{先验}}} )$
- 模型复杂度增加时,$\ln p ( \mathcal{D}|\text{w}_{MAP} )$ 会变大,因为模型越复杂,拟合度越好。
- 复杂度惩罚项的大小随着模型中可调节参数 M 的数量线性增加
- 模型复杂度增加时,$M\ln ( \frac{\Delta\text{w}{\text{后验}}}{\Delta\text{w}{\text{先验}}} )$ 会变小,因为受限于 $M$。
预测分布:对各个模型的预测分布 $p ( t|\text{x},\mathcal{M}_i,\mathcal{D} )$ 求加权平均,权值为这些模型的后验概率 $p ( \mathcal{M}_i|\mathcal{D} )$。
$$
p ( t|\text{x},\mathcal{D} ) =\sum_{i=1}^L p ( t|\text{x},\mathcal{M}_i,\mathcal{D} ) p ( \mathcal{M}_i|\mathcal{D} )
$$
模型选择 ( model selection ) :对于「模型求平均」的简单近似是使用最有可能的模型做预测。
- 简单的模型拟合数据的效果较差
- 复杂的模型的预测概率会分散到过多的可能的数据集当中,从而每个数据集赋予的概率都相对较小。
贝叶斯模型比较
- 生成数据的真实概率分布包含在考虑的模型集合当中
- 贝叶斯模型会倾向于选择更加正确的模型
- 贝叶斯方法需要对模型的形式作出假设,如果假设不合理,那么结果就会出错。
最优评估方式:保留一个独立的测试数据集,使用这个数据集来评估最终系统的表现。
3.5. 证据的近似计算
近似计算方法用于解决模型证据中无法对所有的变量进行完整积分的问题。
- 计算过程
- 首先对参数 w 求积分,得到边缘似然函数 ( marginal likelihood function )
- 然后通过最大边缘似然函数,确定超参数的值。
- 这个框架在统计学中称为经验贝叶斯 ( empirical Bayes ) 或者第二类最大似然 ( type 2 maximum likelihood ) 或者推广的最大似然 ( generalized maximum likelihood ),在机器学习中称为证据近似 ( evidence approximation )。
公式推导
- ( Eq 3.74 ) : $p ( t|\mathbf{t} ) =\int\int\int p ( t|\text{w},\beta ) p ( \text{w}|\mathbf{t},\alpha,\beta ) p ( \alpha,\beta|\mathbf{t} ) \text{dw dα dβ}$
- ( Eq 3.8 ) : $p ( t|\text{w},\beta ) = p ( t|\text{x,w},\beta ) =\mathcal{N} ( t|y ( \text{x,w} ) ,\beta^{-1} )$
- ( Eq 3.49 ) : $p ( \text{w}|\mathbf{t},\alpha,\beta ) = \mathcal{N} ( \text{w}|\text{m}_N,\text{S}_N )$
- ( Eq 3.53 ) : $\text{m}_N = \beta\text{S}_N\Phi^T\mathbf{t}$
- ( Eq 3.54 ) : $\text{S}_N^{-1}=\alpha\mathbf{I} + \beta\Phi^T\Phi$
- 如果 $p ( \alpha,\beta|\mathbf{t} )$ 在 $\hat{\alpha}$ 和 $\hat{\beta}$ 附近有尖峰
- 则 $\alpha=\hat{\alpha},\beta=\hat{\beta}$
- 得 $p ( t|\mathbf{t} ) \simeq p ( t|\mathbf{t},\hat{\alpha},\hat{\beta} ) = \int p ( t|\text{w},\hat{\beta} ) p ( \text{w}|\mathbf{t},\hat{\alpha},\hat{\beta} ) \text{dw}$
- 否则: $p ( \alpha,\beta|\mathbf{t} ) \propto p ( \mathbf{t}|\alpha,\beta ) p ( \alpha,\beta )$
最大化对数证据
- 解析地计算证据函数。然后令其导数为零,得到对于超参数的重新估计方程 ( Sec 3.5.2 )
- 期望最大化 ( EM ) 算法 ( Sec 9.3.4 )
证据函数的计算与最大化 ( 有点难,建议手工推导,看懂图的含义,对于理解贝叶斯模型比较有帮助 )
3.5.1 计算证据函数
边缘似然函数
$$
p ( \mathbf{t}|\alpha,\beta )
=\int p ( \mathbf{t}|\text{w},\beta ) p ( \text{w}|\alpha ) \text{dw}
$$
计算积分的方法
- 使用线性——高斯模型的条件概率分布
$$
p ( y ) =\mathcal{N} ( y|A\mu+b,L^{-1}+A\Lambda^{-1}A^T )
$$
- 对指数项配平方,使用高斯分布的归一化系数的基本形式
- ( Eq 3.78 ) : $p ( \mathbf{t}|\alpha,\beta ) = ( \frac\beta{2\pi} )^{N/2}+ ( \frac\alpha{2\pi} )^{M/2}\int\exp{-E ( \text{w} ) }\text{dw}$
- ( Eq 3.10 ) : $p ( \mathbf{t}|\text{X,w},\beta ) = \prod_{n=1}^N \mathcal{N} ( t_n|\text{w}^T\phi ( \text{x}_n ) ,\beta^{-1} )$
- ( Eq 3.12 ) :$E_D ( \text{w} ) =\frac12\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2$
- ( Eq 3.52 ) : $p ( \text{w}|\alpha ) =\mathcal{N} ( \text{w}|\boldsymbol{0},\alpha^{-1}\mathbf{I} )$
- $N$:数据集中数据点的个数
- $M$:参数 $\text{w}$ 的维数
- ( Eq 3.79 ) :$E ( \text{w} ) = \beta E_D ( \text{w} ) +\alpha E_W ( \text{w} ) = \frac\beta{2}|\mathbf{t}-\Phi\text{w}|^2 + \frac\alpha{2}\text{w}^T\text{w}$
- ( Eq 3.27 ) :$\frac12\sum_{n=1}^N{t_n-\text{w}^T\phi ( \text{x}_n ) }^2+\frac\lambda{2}\text{w}^T\text{w}$
- $E ( \text{w} ) =E ( \text{m}_N ) +\frac12 ( \text{w}-\text{m}_N )^T A ( \text{w}-\text{m}_N )$
- $A=\alpha I+\beta\Phi^T\Phi=\nabla\nabla E ( \text{w} )$,也称为 Hessian 矩阵
- $E ( \text{m}_N ) =\frac\beta{2}|\mathbf{t}-\Phi\text{m}_N|^2+\frac\alpha{2}\text{m}_N^T\text{m}_N$
- $\text{m}_N=\beta A^{-1}\Phi^T\mathbf{t}$
- ( Eq 3.53 ) : $\text{m}_N=\beta\text{S}_N\Phi^T\mathbf{t}$
- ( Eq 3.54 ) : $\text{S}_N^{-1}=\alpha I+\beta\Phi^T\Phi$
- $A=\text{S}_N^{-1}$
- ( Eq 3.78 ) : $p ( \mathbf{t}|\alpha,\beta ) = ( \frac\beta{2\pi} )^{N/2}+ ( \frac\alpha{2\pi} )^{M/2}\int\exp{-E ( \text{w} ) }\text{dw}$
比较多元高斯分布的归一化系数,关于 $\text{w}$ 的积分计算
$$
\begin{aligned}
\int\exp{-E ( \text{w} ) }\text{dw}
&=\exp{-E ( \text{m}_N ) } \int\exp{-\frac12 ( \text{w-m}_N ) A\text{w-m}_N ) }\text{dw}\
&=\exp{-E ( \text{m}_N ) } ( 2\pi )^{M/2}|A|^{-1/2}
\end{aligned}
$$
模型证据函数:基于边缘似然函数 ( Eq 3.78 ) 的对数得
$$
\ln p ( \mathbf{t}|\alpha,\beta ) =\frac{M}2\ln\alpha+\frac{N}2\ln\beta-E ( \text{m}_N ) -\frac12\ln|A|-\frac{N}2\ln ( 2\pi ) \tag{3.86}
$$
( 理解 Fig 3.14,明白模型对数证据与阶数 $M$ 之间的关系 )
3.5.2 最大化证据函数
边缘似然函数 ( Eq 3.78 ) 关于 $\alpha$ 的最大化
- 定义特征向量方程:$( \beta\Phi^T\Phi ) \text{u}_i=\lambda_i\text{u}_i$
- $A=\alpha I+\beta\Phi^T\Phi$ 的特征值为 $\alpha+\lambda_i$
$$
\frac{d}{d\alpha}\ln|A| = \frac{d}{d\alpha}\ln\prod_i ( \lambda_i+\alpha ) = \frac{d}{d\alpha}\sum_i\ln ( \lambda_i+\alpha ) = \sum_i\frac1{\lambda_i+\alpha}
$$
- 证据函数关于 $\alpha$ 的驻点满足
$$
0=\frac{M}{2\alpha}-\frac12\text{m}_N^T\text{m}_N-\frac12\sum_i\frac1{\lambda_i+\alpha}
$$
- 两侧乘以 $2\alpha$ 得
$$
\alpha\text{m}_N^T\text{m}_N=M-\alpha\sum_i\frac1{\lambda_i+\alpha}=\gamma\tag{3.90}
$$
- 由于 $i$ 的求和式中一共有 $M$ 项,因此 $\gamma$ 重写为
$$
\gamma=\sum_i\frac{\lambda_i}{\lambda_i+\alpha}\tag{3.91}
$$
- 基于 ( Eq 3.90 ),最大化边缘似然函数的 $\alpha$ 为
$$
\alpha=\frac{\gamma}{\text{m}_N^T\text{m}_N}
$$
- 注 1:$\alpha$ 是一个隐式解,因为 $\alpha$ 既与 $\gamma$ 相关,还与 众数 $\text{m}_N$ 相关,因此只能通过迭代方法求解。
- 注 2:$\alpha$ 的求解基于对训练集的观察确定的,不像最大似然方法需要独立的数据集优化模型的复杂度
边缘似然函数 ( Eq 3.78 ) 关于 $\beta$ 的最大化
$$
\frac{d}{d\beta}\ln|A| = \frac{d}{d\beta}\sum_i\ln ( \lambda_i+\alpha ) = \frac1\beta\sum_i{\lambda_i}{\lambda_i+\alpha} = \frac{\gamma}{\beta}
$$
- 证据函数关于 $\beta$ 的驻点满足
$$
0=\frac{N}{2\beta}-\frac12\sum_{n=1}^N{t_n-\text{m}_N^T\phi ( \text{x}_n ) }^2-\frac{\gamma}{2\beta}\tag{3.94}
$$
- 基于 ( Eq 3.94 ),最大化边缘似然函数的 $\beta$ 为
$$
\frac1\beta=\frac1{N-\gamma}\sum_{n=1}^N{t_n-\text{m}_N^T\phi ( \text{x}_n ) }^2\tag{3.95}
$$
- 注:$\beta$ 是一个隐式解,因此只能通过迭代方法求解
3.5.3 参数的有效数量
( Eq 3.91 ) 的 $\gamma$ 度量了已经良好确定的参数的数目。
对比 $\beta$ 的估计公式
- ( Eq 3.95 ) : $\frac1\beta=\frac1{N-\gamma}\sum_{n=1}^N{t_n-\text{m}_N^T\phi ( \text{x}_n ) }^2$
- 分母中的因子 $N-\gamma$ 抵消了最大似然解的偏差
- 参数的总数量 $M$,由数据确定的有效参数的数量 $\gamma$,剩余的 $M-\gamma$ 个参数被先验概率分布设置为较小的值
- ( Eq 3.21 ) : $\frac1{\beta_{ML}}=\frac1N\sum_{n=1}^N{t_n-\text{w}_{ML}^T\phi ( \text{x}_n ) }^2$
- ( Eq 1.56 ) : $\mathbb{E}[\sigma_{ML}^2]=\frac{N-1}{N}\sigma^2$
- ( Eq 1.59 ) : $\tilde{\sigma}^2 = \frac{N}{N-1}\sigma_{ML}^2 = \frac1{N-1}\sum_{n=1}^N ( x_n-\mu_{ML} )^2$
- ( Eq 3.97 ) : $\sigma_{MAP}^2 = \frac1{N-1}\sum_{n=1}^N ( x_n-\mu_{ML} )^2$
- 分母中的因子 $N-1$ 反映了模型中的一个自由度被用于拟合均值,抵消了最大似然解的偏差
极限情况 $N>>M$,基于 ( Eq 3.87 ) 可知特征值 $\lambda_i$ 随着数据集规模的增加而增大,可得
$$
\begin{aligned}
\gamma&=M\
\alpha&=\frac{M}{2E_W ( \text{m}_N )}\
\beta&=\frac{M}{2E_D ( \text{m}_N )}
\end{aligned}
$$
3.6. 固定基函数的局限性
- 优点:通过选择合适的基函数,可以建立输入向量到目标向量之间的任意非线性函数映射。
- 缺点:因为基函数在观测到任何数据之前就被固定下来,因此基函数的数量会随着输入空间的维度 $D$ 的增长而呈指数方式增长。( 参考 Sec 1.4. )
真实数据集的两个性质
- 数据向量通常位于一个非线性流形内部
- 基于输入变量之间的相关性,流形本身的维度小于输入空间的维度
- 使用局部基函数,基函数只分布在输入空间中包含数据的区域。
- 具体应用
- 径向基函数网络
- 支持向量机
- 相关向量机
- 神经网络:使用可调节的基函数,通过调节参数使基函数会按照数据流形发生变化。
- 目标变量可能只依赖于数据流形中的少量可能的方向
- 具体应用
- 神经网络:选择输入空间中基函数产生响应的方向
- 具体应用
03. 小结
这章的标题在许多模式识别与机器学习的书中都见过,但是作者采用贝叶斯和核函数的视角来分析和解释这个模型,使模型的理解难度加大,但是对于知识的扩展和补充很有裨益。如果对贝叶斯方法了解不足,可以参考 [^Duda,2003] 和 [^Andrew,2004],虽然这些书中的内容并不能减轻阅读这一章的难度,但至少可以为理解贝叶斯方法打下基础