Ch04

ZhuYuanxiang 2023-10-20 10:22:26
Categories: Tags:

Ch 04. 分类的线性模型

提纲

重点

难点

学习要点

4.1. 线性判别函数

判别函数是一个将输入向量 $\text{x}$ 分配到 $K$ 个类别中的某一个类别 $C_k$ 的函数。

线性判别函数:决策面是超平面的判别函数。

4.1.1 二分类问题

线性判别函数最简单的形式是输入向量的线性函数

4.1.2 多分类问题

将二分类问题推广到 $K$ 分类问题 ( $K>2$ ) ( Fig 4.2 )

$K$ 分类判别函数:避免无法分类的区域 ( Fig 4.3 )

证明:判别函数的决策区域是 单连通的 和 凸的。

学习参数的方法

三种 非概率的、学习线性判别函数的参数的方法:

4.1.3 最小平方方法

基于 $K$ 分类问题 讨论

4.1.4 二分类的 Fisher 线性判别函数

Fisher 线性判别函数:也叫 线性判别分析 ( Linear Discrimination Analysis, LDA )。

[ 书中描述比较简单,详情可参考 [^Duda, 2003] P 96,[^周志华,2018] P 60 )]

二分类问题的前提条件

原始解决方案

Fisher 线性判别准则

4.1.5 Fisher 判别函数 与 最小平方的关系

权值的最小平方解 等价于 Fisher 解[^Duda&Hart,1973]

4.1.6 多分类的 Fisher 线性判别函数

$K$ 分类问题的前提条件

推导过程

构造准则选择方式[^Fukunaga,1990]

4.1.7 感知器算法

感知器算法 对应 二分类模型

广义的线性模型

学习准则是:误差函数最小化

$$
\begin{aligned}
-[\text{w}^{( \tau+1 )}]^T\boldsymbol{\phi ( \text{x}_n )}t_n
&=-[\text{w}^{( \tau )}]^T\boldsymbol{\phi ( \text{x}_n )}t_n-[\boldsymbol{\phi ( \text{x}_n )}t_n]^T \boldsymbol{\phi ( \text{x}_n )}t_n\
&<-[\text{w}^{( \tau )}]^T\boldsymbol{\phi ( \text{x}_n )}t_n
\end{aligned}
$$

感知器收敛定理证明

感知器算法的不足

模型分类 ( P 147 )

4.2. 概率生成式模型

对 类条件概率密度 $p ( \text{x}|\mathcal{C}_k )$和 类先验概率分布 $p ( \mathcal{C}_k )$ 建模,使用这两个概率通过贝叶斯定理计算 后验概率密度 $p ( \mathcal{C}_k|\text{x} )$。

二分类问题 ( Eq 4.57 )
$$
\begin{aligned}
p ( \mathcal{C}_1|\text{x} )
&=\frac{p ( \text{x}|\mathcal{C}_1 ) p ( \mathcal{C}_1 )}{p ( \text{x}|\mathcal{C}_1 ) p ( \mathcal{C}_1 ) +p ( \text{x}|\mathcal{C}_2 ) p ( \mathcal{C}_2 )}\
&=\frac1{1+\exp ( -a )}\
&=\sigma ( a ) \
a &= \ln \frac{p ( \text{x}|\mathcal{C}_1 ) p ( \mathcal{C}_1 )}{p ( \text{x}|\mathcal{C}_2 ) p ( \mathcal{C}_2 )}
\end{aligned}
$$

$K$ 分类问题 ( $K>2$ ) ( Eq 4.62 )
$$
\begin{aligned}
p ( \mathcal{C}_k|\text{x} )
&=\frac{p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )}{\sum_j p ( \text{x}|\mathcal{C}_j ) p ( \mathcal{C}_j )}\
&=\frac{\exp ( a_k )}{\sum_j\exp ( a_j )}\
a_k &=\ln ( p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k ))
\end{aligned}
$$

4.2.1 输入数据是连续值

前提条件

二分类问题

$K$ 分类问题

二次判别函数

4.2.2 最大似然解

给出类条件概率密度 $p ( \text{x}|\mathcal{C}_k )$ 的参数化的函数形式,则能够通过最大似然法确定参数的值

二分类问题

前提条件

推导过程

$$
\begin{aligned}
-\frac12\sum_{n=1}^N t_n\ln|\Sigma|
&-\frac12\sum_{n=1}^N t_n ( \text{x}_n-\boldsymbol{\mu}1 )^T\Sigma^{-1} ( \text{x}-\boldsymbol{\mu}1 ) -\frac12\sum{n=1}^N ( 1-t_n ) \ln|\Sigma|\
& -\frac12\sum
{n=1}^N ( 1 - t_n ) ( \text{x}_n-\boldsymbol{\mu}_2 ) \Sigma^{-1} ( \text{x}-\boldsymbol{\mu}2 ) \
&=-\frac{N}2\ln|\Sigma|-\frac{N}2\text{Tr}{\Sigma^{-1}S}\
S &=\frac{N_1}N S_1+\frac{N_2}N S_2\
S_1 &=\frac1{N_1}\sum
{n\in\mathcal{C}_1} ( \text{x}-\boldsymbol{\mu}_1 ) ( \text{x}-\boldsymbol{\mu}1 )^T\
S_2 &=\frac1{N_2}\sum
{n\in\mathcal{C}_2} ( \text{x}-\boldsymbol{\mu}_2 ) ( \text{x}-\boldsymbol{\mu}_2 )^T
\end{aligned}
$$

$K$ 分类问题

4.2.3 输入数据是离散值

二元离散特征值 $x_i\in{0,1}$,多 ( $K$ ) 分类问题,Softmax 函数

多 ( $M$ ) 元离散特征值,二分类问题,Logistic Sigmoid 函数

4.2.4 指数族分布

建立一个更加通用的模型:无论输入是离散值,还是服从高斯分布的连续值,后验类概率密度都是由广义线性模型和 Logistic Sigmoid 函数 ( $K=2$ ) 或者 Softmax 函数 ( $K>2$ ) 作为激活函数。因此可以假定类条件概率密度 $p ( \text{x}|\mathcal{C}_k )$ 是指数族分布的成员。

二分类问题

$K$分类问题

4.3. 概率判别式模型

基于广义线性模型,使用最大似然法确定参数,通过「迭代重加权最小平方」( Iterative Re-weighted Lease Squares, IRLS ) 求解。

4.3.1 固定基函数

4.3.2 二分类问题的 Logistic 回归

使用最大似然方法来确定 Logistic 回归模型中的参数。( 参考 [^周志华,2018] Ch03,[^李航,2012] Ch06 )

二分类问题

4.3.3 迭代重加权最小平方

误差函数因为 Logistic Sigmoid 是非线性函数,所以没有解析解。但是误差函数是凸函数,因此存在一个唯一的最小值。所以,基于 Newton-Raphson 迭代优化框架,使用对数似然函数的局部二次近似可以得到迭代求解。

基于回归模型的平方和误差函数应用 Newton-Raphson 迭代优化框架

$$
\begin{aligned}
\text{w}^{\text{新}}
&=\text{w}^{\text{旧}}- ( \Phi^T\Phi )^{-1}{\Phi^T\Phi\text{w}^{\text{旧}}-\Phi^T\mathbf{t}}\
&= ( \Phi^T\Phi )^{-1}\Phi^T\mathbf{t}
\end{aligned}
$$

基于 Logistic 回归模型的交叉熵误差函数应用 Newton-Raphson 迭代优化框架

$$
\begin{aligned}
\text{w}^{\text{新}}
&=\text{w}^{\text{旧}}- ( \Phi^T R \Phi )^{-1}\Phi^T ( \mathbf{y}-\mathbf{t} ) \
&= ( \Phi^T R \Phi )^{-1}{\Phi^T R \Phi \text{w}^{\text{旧}}-\Phi^T ( \mathbf{y}-\mathbf{t} ) }\
&= ( \Phi^T R \Phi )^{-1}\Phi^T R \mathbf{z}\
\mathbf{z}&=\Phi\text{w}^{\text{旧}}-R^{-1} ( \mathbf{y}-\mathbf{t} ) ,\mathbf{z}\in\mathcal{R}^{N\times N}
\end{aligned}
$$

$$
\begin{aligned}
a_n ( \text{w} )
&\simeq a_n ( \text{w}^{\text{旧}} ) +\frac{\text{d}a_n}{\text{d}y_n}\biggl|_{\text{w}^{\text{旧}}} ( t_n-y_n ) \
&=\phi ( \text{x}_n )^T\text{w}^{\text{旧}}-\frac{y_n-t_n}{y_n ( 1-y_n )}\
&= z_n
\end{aligned}
$$

4.3.4 多分类问题的 Logistic 回归

多分类问题的生成式模型

多分类问题的 Logistic 回归

4.3.5 Probit 回归

基于广义线性模型的二分类问题

具体案例

基于 Probit 激活函数的广义线性模型称为 Probit 回归

4.3.6 标准链接函数

假设目标变量的条件分布来自于指数族分布,对应的激活函数选择标准链接函数

$$
\begin{aligned}
\nabla_{\text{w}}\ln p ( \mathbf{t}|\eta,s )
&=\sum_{n=1}^N{\frac{\text{d}}{\text{d}\eta_n}\ln g ( \eta_n ) +\frac{t_n}s}\frac{\text{d}\eta_n}{\text{d}y_n}\frac{\text{d}y_n}{\text{d}a_n}\nabla a_n\
&=\sum_{n=1}^N \frac1s{t_n-y_n}\psi’ ( y_n ) f’ ( a_n ) \phi ( \text{x}_n ) \
y_n &= f ( a_n ) =f ( \text{w}^T\phi ( \text{x} ))
\end{aligned}
$$

4.4 Laplace 近似

因为后验概率分布不再是高斯分布,因此无法精确地关于参数向量 $\text{x}$ 求积分,只能采取某种近似技术。

Laplace 近似是一种基于分析估计和数值采样的技术框架,目标是找到定义在一组连续变量上的概率密度的高斯近似。

单一连续变量 $z$

$M$ 维空间上的向量 $\text{z}$

$$
\begin{aligned}
q ( \text{z} )
&=\frac{|\mathbf{A}|^{1/2}}{( 2\pi )^{M/2}}\exp{-\frac12 ( \text{z}-\text{z}_0 )^T \mathbf{A} ( \text{z}-\text{z}_0 ) }\
&=\mathcal{N} ( \text{z}|\text{z}_0,\mathbf{A}^{-1} )
\end{aligned}
$$

Laplace 近似的缺点

4.4.1 模型比较 和 BIC

上节近似概率分布 $p ( \text{z} )$,本节基于 ( Eq 4.133 ) 给出的近似公式去近似归一化常数 $Z$

$$
\begin{aligned}
Z &=\int f ( \text{z} ) \text{dz}\
&\simeq f ( \text{z}_0 ) \int\exp{-\frac12 ( \text{z}-\text{z}_0 )^T \mathbf{A} ( \text{z}-\text{z}_0 ) }\text{dz}\
&=f ( \text{z}_0 ) \frac{( 2\pi )^{M/2}}{|A|^{1/2}}
\end{aligned}\tag{4.135}
$$

基于 ( Eq 4.135 ) 近似模型证据

4.5. 贝叶斯 Logistic 回归

基于 Laplace 近似处理贝叶斯 Logistic 回归问题

4.5.1 Laplace 近似

寻找后验概率分布的高斯表示

$$
\begin{aligned}
\ln p ( \text{w}|\mathbf{t} )
=& -\frac12 ( \text{w}-\text{m}_0 )^T \text{S}_0^{-1} ( \text{w}-\text{m}0 ) \
& +\sum
{n=1}^N{t_n\ln y_n+ ( 1-t_n ) \ln ( 1-y_n ) }+\text{const}
\end{aligned}
$$

4.5.2 用于预测值的分布

在给定新的特征向量 $\phi ( \text{x} )$ 时,通过对后验分布 $p ( \text{w}|\mathbf{t} )$( 由高斯分布 $q ( \text{w} )$ 近似 ) 边缘化,可以得到类别 $\mathcal{C}_1$ 的预测分布

$$
\begin{aligned}
p ( \mathcal{C}_1|\phi,\mathbf{t} )
&=\int p ( \mathcal{C}_1|\phi,\text{w} ) p ( \text{w}|\mathbf{t} ) \text{dw}\
&\simeq\int\sigma ( \text{w}^T\phi ) q ( \text{w} ) \text{dw}
\end{aligned}
$$

类别 $\mathcal{C}_2$ 的预测分布:$p(\mathcal{C}_2|\phi,\mathbf{t})=1-p(\mathcal{C}_1|\phi,\mathbf{t})$

计算预测分布

$$
\begin{aligned}
\sigma_a
&=\text{var}[a]=\int p(a){a^2-\mathbb{E}[a]^2}\text{d}a\
&=\int q(\text{w}){(\text{w}^T\phi)^2-(\text{m}_N^T\phi)^2}\text{dw}\
&=\phi^T\text{S}_N\phi
\end{aligned}
$$

04. 小结

此章内容相对较难,作者试图通过概率和统计的角度来阐述生成模型和判别模型,后面的学习中会反复用到本章中提及的概率模型和优化算法,如果无法深入理解也尽量掌握算法的核心思想 ( 即应用的范围 )。