Ch05

ZhuYuanxiang 2023-10-20 10:22:26
Categories: Tags:

C05. 线性判别函数

5.1 引言

Ch03 中,假定概率密度函数的参数形式已知,使用训练样本来估计概率密度函数的参数值

Ch05 中,假定判别函数的参数形式已知,使用训练样本来估计判别函数的参数值

求解判别函数的参数值的方法:有些是基于统计的方法,有些不是基于统计的方法;这些方法都不需要知道概率密度函数的参数值,因此它们都属于非参数化的方法

线性判别函数分类

寻找线性判别函数的问题被形式化为极小化准则函数的问题,以分类为目的的准则函数:样本风险,也叫训练误差,是对训练样本集进行分类所引起的平均损失

因为计算极小风险线性判别函数是困难的,因此本章将主要讨论处理「极小化准则函数」的「梯度下降法」的计算复杂度和收敛性。

5.2 线性判别函数和判定面

线性判别函数:由 $\text{x}$ 的各个分量的线性组合而成的函数

$$
g ( \text{x} ) =\text{w}^T\text{x}+w_0
$$

5.2.1 二分类情况

判别条件

权向量 $\text{w}$ 与超平面上的任意向量正交

判别函数 $g ( \text{x} )$ 是特征空间中某点 $\text{x}$ 到超平面的距离的一种代数度量

线性判别函数基于超平面判定面把特征空间分割成两个区域

5.2.2 多分类情况

将多分类问题转化成多个二分类问题

使用「线性机」解决多分类问题 ( 也叫 $K$ 类判别函数[^Bishop,2006] Ch04 )

5.3 广义线性判别函数

线性判别函数 $g( \text{x})=w_0+\sum_{i=1}^D w_i x_i$

二次判别函数 $g ( \text{x} )=w_0+\sum_{i=1}^D w_i x_i+\sum_{i=1}^D\sum_{j=1}^D w_{ij}x_i x_j$

多项式判别函数 $g(\text{x} )=\sum_{i=1}^{\hat{D}} a_i y_i(\text{x})=\text{a}^T\text{y}$

5.4 二分类线性可分的情况

假设包含$N$个样本的集合{$\text{y}_1,\cdots,\text{y}_N$},标记 $\omega\in{\omega_1,\omega_2}$,求解判别函数 $g(\text{x})=\text{a}^T\text{y}$ 的权向量 $\text{a}$,如果权向量存在就表示样本「线性可分」。

5.4.1 几何解释和术语

解区域:区域中的向量都是解向量

5.4.2 梯度下降算法

(梯度下降的推导及区别,还可参考 [^Bishop,2006] Ch05 Sec 5.2

寻找满足线性不等式组 $\text{a}^T\text{y}_i>0$ 的解时所采用的方法:定义准则函数 $J(\text{a})$ ,当 $\text{a}$ 是解向量时,$J(\text{a})$ 最小。于是问题就转化为标量函数的极小化问题,通常采用梯度下降法来解决

$$
\text{a}^{(t+1)}=\text{a}^{(t)}-\alpha^{(t)}\nabla J(\text{a}^{(t)})
$$

设定学习率的原则性的方法:准则函数在 $\text{a}^{(t)}$ 附近的二阶泰勒展开式

$$
\begin{aligned}
J(\text{a})&\simeq J(\text{a}^{(t)})+\nabla J^T(\text{a}-\text{a}^{(t)})+\frac12(\text{a}-\text{a}^{(t)})^T \text{H}(\text{a}-\text{a}^{(t)})\
J(\text{a}^{(t+1)})&\simeq J(\text{a}^{(t)})-\alpha^{(t)}|\nabla J|^2+\frac12(\alpha^{(t)})^2\nabla J^T \text{H}\nabla J
\end{aligned}
$$

5.5 感知器准则函数最小化

5.5.1 感知器准则函数

构造解线性不等式 $\text{a}^T\text{y}_i>0$ 的准则函数的问题

5.5.2 单个样本校正的收敛性证明

5.5.3 一些直接的推广

5.6 松弛算法

5.6.1 下降算法

5.6.2 收敛性证明

5.7 线性不可分的情况

当样本是线性可分的时候,感知器算法和松弛算法都能解决向量分类的问题,这些算法统称为「误差校正方法」,因为它们都在遇到错分样本时才对权向量进行校正,都是以完全无错解为目标。

当样本是线性不可分的时候,感知器算法和松弛算法将永远无法收敛,于是采用许多启发式规则用于修改误差校正算法,使得不可分问题得到可以接受的结果,即对可分问题仍能保证大部分正确分类。

5.8 最小平方误差方法

5.8.1 最小平方误差及其伪逆

5.8.2 与 Fisher 线性判别的关系

5.8.3 最优判别的渐近逼近

5.8.4 Widrow-Hoff 算法(LMS)

5.8.5 随机逼近法

5.9 Ho-Kashyap 算法

5.9.1 下降算法

5.9.2 收敛性证明

5.9.3 不可分的情况

5.9.4 一些相关的算法

5.10 线性规划算法

5.10.1 线性规划

5.10.2 线性可分情况

5.10.3 极小化感知器准则函数

5.11 支持向量机

5.12 推广到多分类问题

5.12.1 Kesler 构造法

5.12.2 固定增量规则的收敛性

5.12.3 MSE 算法的推广

本意小结

文献和历史评述