《模式识别与机器学习》的第一章

ZhuYuanxiang 2019-04-15 00:00:00
Categories: Tags:

Ch 01. 绪论

本书需要机器学习的基本知识,研读后可以加深对 贝叶斯学习 的理解。

提纲

多项式曲线拟合 : 这个例子通过不同角度介绍机器学习的常用算法,从而更好地理解贝叶斯估计的思想,也是后面反复讨论的基础。

基本知识点

1.1. 例子 : 多项式曲线拟合

理论基础

前提条件

多项式函数是线性模型,应用于 线性回归 ( Ch 03 ) 和 线性分类 ( Ch 04 )

$$
y ( x,\text{w} ) = w_0 + w_1 x + w_2 x^2 + \cdots + w_M x^M = \sum_{j=0}^M w_j x^j
$$

最小化误差函数 ( error function ) 可以调整多项式函数的参数

$$
E ( \text{w} ) =\frac12\sum_{n=1}^N [y ( x_n,\text{w} ) - t_n]^2
$$

$$
E_{RMS}=\sqrt{2E ( \text{w}^* ) /N}
$$

多项式的阶数 $M$ 的选择,属于 模型对比 ( model comparison ) 问题 或者 模型选择 ( model selection ) 问题。

拟合问题 : 模型容量 与 实际问题 不匹配

正则化 ( regularization ) : 解决过拟合问题,即给误差函数增加惩罚项

确定模型容量 : 验证集 ( validation set ),也被称为拿出集 ( hold-out set ),缺点是不能充分利用数据

数据集规模 : 训练数据的数量应该是模型可调节参数的数量的 5~10 倍。

最大似然 ( maximum likelihood, ML )

1.2. 概率论

( 建议跟着公式和例子推导 )

理解 离散随机变量 与 连续随机变量 之间的关系

离散随机变量

$$
p ( X=x_i,Y=y_j ) =\frac{n_{ij}}{N}
$$

$$
p ( X=x_i ) = \frac{c_i}N
$$

$$
p ( X=x_i ) = \sum_{j=1}^L p ( X=x_i,Y=y_j )
$$

$$
p ( Y=y_j|X=x_i ) =\frac{n_{ij}}{c_i}
$$

$$
p ( X=x_i,Y=y_j ) =\frac{n_{ij}}N=\frac{n_{ij}}{c_i}\cdot\frac{c_i}N = p ( Y=y_j|X=x_i ) p ( X=x_i )
$$

$$
p ( Y|X ) =\frac{p ( X|Y ) p ( Y )}{p ( X )}=\frac{p ( X|Y ) p ( Y )}{\sum_Y p ( X|Y ) p ( Y )}
$$

$$
p ( X,Y ) =p ( X ) p ( Y )
$$

概率论的两种基本规则 ( 后面会有大量的应用,需要充分理解才能正确的使用 )

1.2.1. 概率密度函数

离散随机变量

概率质量函数 ( probability mass function )
$$
p ( X=x_i ) = \sum_j n_{ij} /N
$$
条件概率 ( conditional probability )
$$
p ( Y=y_j|X=x_i ) = n_{ij}/ \sum_j n_{ij}
$$

$$
p ( X=x_i,Y=y_j ) =p ( Y=y_j|X=x_i ) p ( X=x_i )
$$

联合概率 ( joint probability )
$$
p ( X=x_i,Y=y_j ) =n_{ij}/N
$$

$$
p ( X=x_i ) =\sum_{j=1}^L p ( X=x_i,Y=y_j )
$$

连续随机变量

概率密度函数 ( probability density function ) : $p ( x\in ( a,b )) =\int_a^b p ( x ) dx$

累积分布函数 ( cumulative distribution function ) : $p ( z ) = \int_{-\infty}^z p ( x ) dx$

1.2.2. 期望 与 协方差

期望 ( expectation ) : 函数的平均值

$$
\mathbb{E}[f]\simeq \frac1N\sum_{n=1}^N f ( x_n )
$$

$$
\mathbb{E}_x [f ( x,y )] = \sum_x p ( x ) f ( x,y )
$$

$$
\mathbb{E}_x [f|y]=\sum_x p ( x|y ) f ( x )
$$

方差 ( variance ) : 度量了函数 $f ( x )$ 在均值 $\mathbb{E}[f ( x )]$ 附近的变化性
$$
\begin{aligned}
\text{var}[f] &= \mathbb{E}[( f ( x ) -\mathbb{E}[f ( x )] )^2] =\mathbb{E}[f ( x )^2]-\mathbb{E}[f ( x )]^2\
\text{var}[x] &=\mathbb{E}[x^2]-\mathbb{E}[x]^2
\end{aligned}
$$

协方差 ( covariance ) : 度量两个随机变量之间的关系

$$
\text{cov}[x,y] = \mathbb{E}{x,y} [( x - \mathbb{E}[x] ) ( y - \mathbb{E}[y] )] = \mathbb{E}{x,y}[xy] - \mathbb{E}[x]\mathbb{E}[y]
$$

$$
\text{cov}[\text{x},\text{y}] = \mathbb{E}{\text{x},\text{y}} [( \text{x}-\mathbb{E}[\text{x}] ) ( \text{y}-\mathbb{E}[\text{y}] )] = \mathbb{E}{\text{x},\text{y}} [\text{xy}^T]-\mathbb{E}[\text{x}]\mathbb{E}[\text{y}^T]
$$

1.2.3. 经典概率论 与 贝叶斯概率论

经典概率论

Bayesian 概率

1.2.4. 高斯分布

( 主要概率分布 Ch 02 )

高斯分布 ( Gaussian distribution ),也叫正态分布 ( normal distribution )

一元实值随机变量 $x$ 的高斯分布

$$
\mathcal{N} ( \text{x}|\mu,\sigma^2 ) =
\frac{1}{( 2\pi\sigma^2 )^{1/2}}
\exp{-\frac{1}{2\sigma^2} ( \text{x}-\mu )^2}
$$

D 维随机向量 $\text{x}$ 的高斯分布

$$
\mathcal{N} ( \text{x}|\boldsymbol{\mu},\Sigma ) =
\frac1{( 2\pi )^{D/2}}\frac1{|\Sigma|^{1/2}}
\exp{-\frac12 ( \text{x}-\boldsymbol{\mu} )^T\Sigma^{-1} ( \text{x}-\boldsymbol{\mu} ) }
$$

一元随机实值变量的例子

$$
p ( \mathbf{x}|\mu,\sigma^2 ) = \prod_{n=1}^N \mathcal{N} ( x_n|\mu,\sigma^2 )
$$

$$
\ln p ( \mathbb{x}|\mu,\sigma^2 )
= -\frac{1}{2\sigma^2} \sum_{n=1}^N ( x_n-\mu )^2
-\frac{N}{2}\ln\sigma^2 -\frac{N}{2}\ln ( 2\pi )
$$

1.2.5. 概率建模 : 多项式曲线拟合

概率建模

$$
p ( t|x,\text{w},\beta ) = \mathcal{N} ( t|y ( x,\text{w} ) ,\beta^{-1} )
$$

$$
p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) = \prod_{n=1}^N \mathcal{N} ( t_n|y ( x_n,\text{w} ) ,\beta^{-1} )
$$

$$
\ln p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) = -\frac{\beta}{2} \sum_{n=1}^N ( y ( x_n,\text{w} ) -t_n )^2 +\frac{N}{2}\ln\beta -\frac{N}{2}\ln ( 2\pi )
$$

最大似然解 ( 最大化似然函数 等价于 最小化平方和误差函数 )

最大后验解 ( 最大化后验概率 等价于 最小化正则化的平方和误差函数 )

$$
p ( \text{w}|\alpha ) = \mathcal{N} ( \text{w}|\boldsymbol{0},\alpha^{-1}\mathbf{I} ) = ( \frac{\alpha}{2\pi} )^{( M+1 ) /2} \exp{-\frac{\alpha}{2}\text{w}^T\text{w}}
$$

$$
p ( \text{w}|\mathbf{x},\mathbf{t},\alpha,\beta ) \propto p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) p ( \text{w}|\alpha )
$$

$$
\frac\beta2\sum_{n=1}^N {y ( x_n,\text{w} ) -t_n}^2+\frac\alpha2\text{w}^T\text{w}
$$

1.2.6. 贝叶斯曲线拟合 ( Sec 3.3. )

( 依然用于理解贝叶斯观点在模型中的应用,无法理解可以暂时放弃 )

使用最大后验估计,依然属于点估计,不属于贝叶斯的观点。在模式识别中,对所有的模型参数 $\text{w}$ 进行积分才是贝叶斯方法的核心。

贝叶斯模型

$$
p ( t|x,\mathbf{x},\mathbf{t} ) = \int p ( t|x,\text{w},\beta ) p ( \text{w}|\mathbf{x},\mathbf{t},\alpha,\beta ) d\text{w} = \mathcal{N} ( t|m ( x ) ,s^2 ( x ))
$$

1.3. 模型选择

1.4. 维度灾难

在高维空间中,一个球体的大部分的体积在哪里?( 可以推导公式理解 )

维度灾难 ( curse of dimensionality ) : 在高维空间中,大部分的数据都集中在薄球壳上导致数据无法有效区分

1.5. 决策论 ( 分类问题、模式识别 )

问题原型:输入向量 $\text{x}$ 和 目标向量 $\text{t}$

决策论 : 保证在不确定性的情况下做出最优的决策。

1.5.1. 最小化错误分类率

基本概念

决策 : $p ( \mathcal{C}_k|\text{x} ) =\frac {p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )}{p ( \text{x} )}$

最小化错误分类率 : 将 $\text{x}$ 分配到后验概率 $p ( \mathcal{C}_k|\text{x} )$ 最大的类别中,分类错误的概率最小

$$
\begin{aligned}
p ( \text{mistake} )
&=p ( \text{x}\in\mathcal{R}_1,\mathcal{C}_2 ) +p ( \text{x}\in\mathcal{R}_2,\mathcal{C}1 ) \
&=\int
{\mathcal{R}_1} p ( \text{x},\mathcal{C}2 ) \text{dx}+\int{\mathcal{R}_2} p ( \text{x},\mathcal{C}_1 ) \text{dx}
\end{aligned}
$$

最大化正确分类率 : 将 $\text{x}$ 分配到联合概率 $p ( \mathcal{C}_k,\text{x} )$ 最大的类别中,分类正确的概率最大

$$
p ( \text{correct} )
=\sum_{k=1}^Kp ( \text{x}\in\mathcal{R}k,\mathcal{C}k )
=\sum
{k=1}^K\int
{\mathcal{R}_k} p ( \text{x},\mathcal{C}_k ) \text{dx}
$$

1.5.2. 最小化期望损失 ( 加先验 )

损失函数 ( loss function ) 也称为代价函数 ( cost function ),是对所有可能的决策产生的损失的一种整体度量,目标是最小化整体的损失。

效用函数 ( utility function ),目标是最大化整体的效用,如果效用函数等于损失函数的相反数,则两者等价。

最小化损失的期望 : $\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}j} L{kj} p ( \text{x},\mathcal{C}_k ) dx$

最小化损失的期望的决策规则 : 对于每个新的 $\text{x}$,分到的类别 $C_j$ 保证 $\sum_k L_{kj}p ( \mathcal{C}_k|\text{x} )$ 最小化

1.5.3. 拒绝选项

拒绝选项 ( reject option ) : 为了避免做出错误的决策,系统拒绝从做出类别选择,从而使模型的分类错误率降低。

1.5.4. 推断与决策

分类问题的两个阶段

解决分类问题的三种方法 :

使用后验概率进行决策的理由

$$
\begin{aligned}
p ( \text{x}_I,\text{x}_B|\mathcal{C}_k )
&=p ( \text{x}_I|\mathcal{C}_k ) p ( \text{x}_B|\mathcal{C}_k ) \
p ( \mathcal{C}_k|\text{x}_I,\text{x}_B )
&\propto p ( \text{x}_I,\text{x}_B|\mathcal{C}_k ) p ( \mathcal{C}_k ) \
&\propto p ( \text{x}_I|\mathcal{C}_k ) p ( \text{x}_B|\mathcal{C}_k ) p ( \mathcal{C}_k ) \
&\propto \frac{p ( \mathcal{C}_k|\text{x}_I ) p ( \mathcal{C}_k|\text{x}_B )}{p ( \mathcal{C}_k )}
\end{aligned}
$$

1.5.5. 回归问题的损失函数

回归问题的决策阶段:对于每个输入向量 $\text{x}$,输出目标变量 $t$ 的特定估计 $y ( \text{x} )$,造成损失 $L ( t,y ( \text{x} ))$,则整个问题的平均损失,即损失函数的期望
$$
\mathbb{E}[L]=\int\int L ( t,y ( \text{x} )) p ( \text{x},t ) \text{dx d} t
$$

$$
\frac{\delta\mathbb{E}[L]}{\delta y ( \text{x} )}= 2\int [y ( \text{x} ) - t] p ( \text{x},t ) dt =0
$$

$$
y ( \text{x} ) = \frac{\int t p ( \text{x},t ) \text{d}t}{p ( \text{x} )}= \int t p ( t|\text{x} ) \text{d}t= \mathbb{E}_t [t|\text{x}]
$$

损失函数的具体选择

$$
\begin{aligned}
\mathbb{E}[L]
& =\int\int{y ( \text{x} ) -t}^2 p ( \text{x},t ) \text{dx d} t\
& =\int\int {y ( \text{x} ) - \mathbb{E}_t [t|\text{x}] + \mathbb{E}_t [t|\text{x}] -t}^2 p ( \text{x},t ) \text{dx d}t\
& = \int\int [{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]}^2 + 2{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]}{\mathbb{E}_t [t|\text{x}] -t} + {\mathbb{E}_t [t|\text{x}] -t}^2] p ( \text{x},t ) \text{dx d}t\
& = \int {y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]}^2 p ( \text{x} ) \text{dx}+ \int\text{var}[t|\text{x}] p ( \text{x} ) \text{dx}
\end{aligned}
$$

$$
\begin{aligned}
L_q ( t,y ( \text{x} )) &=|y ( \text{x} ) -t|^q\
\mathbb{E}[L_q] &=\int\int|y ( \text{x} ) -t|^q p ( \text{x},t ) \text{dx d} t
\end{aligned}
$$

解决回归问题的三种思路 ( 建议从机器学习参考书中熟悉这三种方法 )

1.6. 信息论

( 推导过程值得理解,没有深入讨论的部分可以跳过 )

离散随机变量 $x$

离散随机变量的熵 ( entropy )

连续随机变量的熵

$$
\begin{aligned}
H_{\Delta}
&=-\sum_i p ( x_i ) \Delta\ln ( p ( x_i ) \Delta ) \
&=-\sum_i p ( x_i ) \Delta\ln p ( x_i ) - \sum_i p ( x_i ) \Delta \ln\Delta \
&= -\sum_i p ( x_i ) \Delta\ln p ( x_i ) - \ln\Delta
\end{aligned}
$$

$$
\begin{aligned}
p ( x ) &= \frac1{( 2\pi\sigma^2 )^{1/2}} \exp{-\frac{( x-\mu )^2}{2\sigma^2}}\
-\int_{-\infty}^{+\infty} p ( x ) \ln p ( x ) \text{d}x
&+ \lambda_1 ( \int_{-\infty}^{+\infty} p ( x ) \text{d}x -1 ) \
&+ \lambda_2 ( \int_{-\infty}^{+\infty} xp ( x ) \text{d}x - \mu )\
&+ \lambda_3 ( \int_{-\infty}^{+\infty} ( x-\mu )^2 p ( x ) \text{d}x - \sigma^2 )
\end{aligned}
$$

联合熵

1.6.1. 相对熵 和 互信息

凸函数 : 每条弦都位于函数的弧或者弧的上面。$f ( \lambda a + ( 1-\lambda ) b ) \leq \lambda f ( a ) + ( 1-\lambda ) f ( b )$

凹函数 : 如果 $f ( x )$ 是凸函数,则 $-f ( x )$ 是凹函数

Jensen 不等式

KL 散度 : 是两个分布 $p ( \text{x} )$ 和 $q ( \text{x} )$ 之间不相似程度的度量。

$$
\begin{aligned}
\text{KL} ( p||q )
&= -\int p ( \text{x} ) \ln q\text{( x ) dx} - ( -\int p ( \text{x} ) \ln p\text{( x ) dx} ) \
\text{KL} ( p||q )
&= -\int p ( \text{x} ) \ln ( \frac{q ( \text{x} )}{p ( \text{x} )} ) \text{dx}
\geq -\ln\int q\text{( x ) dx} = 0 \
\end{aligned}
$$

Laplace 近似 : 是用方便计算的分布 去逼近 不方便计算的分布,解决 KL 散度不易计算的问题 ( Sec 4.4 )

$$
\begin{aligned}
I[\text{x,y}]
&\equiv\text{KL} ( p ( \text{x,y} ) ||p ( \text{x} ) p ( \text{y} )) \
&= -\int\int p ( \text{x,y} ) \ln ( \frac{p ( \text{x} ) p ( \text{y} )}{p ( \text{x,y} )} ) \text{ dx dy} \
I[\text{x,y}]
&= H[\text{x}] - H[\text{x|y}]\
&= H[\text{y}] - H[\text{y|x}]
\end{aligned}
$$

相对熵 ( relative entropy ) 或者 KL 散度 ( Kullback-Leibler divergence ) ( 推导过程建议理解 )

小结