Ch03

ZhuYuanxiang 2020-10-12 18:15:39
Categories: Tags:

C03. 线性模型

3.1 基本形式

线性模型 ( Linear Model ) 通过学习得到一个用来进行预测的函数,函数是属性的线性组合,有很好的可解释性。

$$
f ( \text{x} ) =w_1 x_1+w_2 x_2+\cdots+w_d x_d +b=\text{w}^T\text{x}+b
$$

3.2 线性回归

线性回归 ( Linear Regression ) :通过学习得到一个线性模型用来预测实值输出标记。

$$
\begin{aligned}
( w^*,b^* )
&=\arg\min_{( w,b )}\sum_{i = 1}^{m} ( f ( x_i ) - y_{i} )^2 \
&=\arg\min_{( w,b )}\sum_{i = 1}^{m} ( y_i-wx_i-b )^2
\end{aligned}
$$

$$
\begin{aligned}
\frac{\partial E_{( w, b )}}{\partial w}&=2 ( w\sum_{i = 1}^m x_i^2-\sum_{i = 1}^m ( y_i - b ) x_i ) \
\frac{\partial E_{( w, b )}}{\partial b}&=2 ( m b-\sum_{i = 1}^m ( y_i - w x_i ))
\end{aligned}
$$

$$
\begin{aligned}
w&=\frac{\sum_{i = 1}^{m}y_i ( x_i-\bar{x} )}{\sum_{i = 1}^{m}x_i^2-\frac1m ( \sum_{i=1}^{m}x_i )^2}\
b&=\frac1m\sum_{i = 1}^{m} ( y_i-w x_i ) \
\bar{x}=\frac1m\sum_{i = 1}^{m}x_i
\end{aligned}
$$

$$
\begin{aligned}
\hat{\text{x}}^*&=\arg\min_{\hat{\text{x}}} ( \text{y-X}\hat{\text{x}} )^T ( \text{y-X}\hat{\text{x}} ) \
\hat{\text{x}}^*&= ( \text{X}^T\text{X} )^{-1}\text{X}^T\text{y}\
\text{X}&=
\begin{bmatrix}x_{11}&\cdots&x_{1d}&1\ \vdots&\ddots&\vdots&\vdots\x_{m1}&\cdots&x_{md}&1\end{bmatrix}=
\begin{bmatrix}\text{x}1^T&1\ \vdots&\vdots\ \text{x}{m}^T&1\end{bmatrix}
\end{aligned}
$$

3.3 对数几率回归

寻找单调可微函数将分类任务的真实标记与线性回归模型的预测值联系起来。

二分类任务,理想函数是「单位阶跃函数」,现实应用是「对数几率函数」。( Fig 3.2 单位阶跃函数与对数几率函数的对比 )

对数几率函数$y ( z )$,也叫「Sigmoid 函数」

$$
\begin{aligned}
& y ( z ) =\frac1{1+\exp ( -z )}\
& \ln\frac{y}{1-y}=\text{w}^T\text{x}+b
\end{aligned}
$$

「对数几率回归模型」( Logistic 回归模型,也叫 Logit 回归模型 ),是一个分类学习方法

基于最大似然法求解对数几率回归模型

$$
\begin{aligned}
\mathcal{l} ( \text{w},b ) &=\sum_{i=1}^m \ln p ( y_i|\text{x}_i;\text{w},b ) \
p ( y_i|\text{x}_i;\text{w},b ) &=y_i p_1 ( \dot{\text{x}}_i;\dot{\text{w}} )
+ ( 1-y_i ) p_0 ( \dot{\text{x}}i;\dot{\text{w}} ) \
\mathcal{l} ( \dot{\text{w}} ) &=\sum
{i = 1}^m{-y_i\dot{\text{w}}^T \dot{\text{x}}_i + \ln [1+\exp ( \dot{\text{w}}^T \dot{\text{x}}_i )]}
\end{aligned}
$$

$$
\begin{aligned}
\dot{\text{w}}^{( t+1 )}
&=\dot{\text{w}}^{( t )}
- ( \frac{\partial^2\mathcal{l} ( \dot{\text{w}} )}{\partial\dot{\text{w}}\partial\dot{\text{w}}^T} )^{-1}
\frac{\partial\mathcal{l} ( \dot{\text{w}} )}{\partial\dot{\text{w}}}\
\frac{\partial\mathcal{l} ( \dot{\text{w}} )}{\partial\dot{\text{w}}}
&=-\sum_{i = 1}^m \dot{\text{x}}_i {y_i-p_1 ( \dot{\text{x}}i;\dot{\text{w}} ) }\
\frac{\partial^2\mathcal{l} ( \dot{\text{w}} )}{\partial\dot{\text{w}}\partial\dot{\text{w}}^T}
&=\sum
{i = 1}^m \dot{\text{x}}_i \dot{\text{x}}_i^T p_1 ( \dot{\text{x}}_i;\dot{\text{w}} )
{1-p_1 ( \dot{\text{x}}_i;\dot{\text{w}} ) }
\end{aligned}
$$

3.4 线性判别分析

LDA 的思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的直线上,再根据投影点的位置来确定新样本的类别。

二分类问题:给定数据集 $D={( \text{x}n,y_n ) }{n=1}^N,y_n\in{0,1}$

最大化目标

$$
\begin{aligned}
J ( \text{w} )
&=\frac{|\text{w}^T\boldsymbol{\mu}_0-\text{w}\boldsymbol{\mu}_1|_2^2}
{\text{w}^T\Sigma_0\text{w}+\text{w}^T\Sigma_1\text{w}}\
&=\frac{\text{w}^T ( \boldsymbol{\mu}_0-\boldsymbol{\mu}_1 ) ( \boldsymbol{\mu}_0-\boldsymbol{\mu}1 )^T\text{w}}
{\text{w}^T ( \Sigma_0+\Sigma_1 ) \text{w}}\
&=\frac{\text{w}^T S_b \text{w}}{\text{w}^T S_w \text{w}}\
S_w &=\Sigma_0+\Sigma_1 \
&=\sum
{\text{x}\in\text{X}_0} ( \text{x}-\boldsymbol{\mu}_0 ) ( \text{x}-\boldsymbol{\mu}0 )^T
+\sum
{\text{x}\in\text{X}_1} ( \text{x}-\boldsymbol{\mu}_1 ) ( \text{x}-\boldsymbol{\mu}_1 )^T\
S_b &= ( \boldsymbol{\mu}_0-\boldsymbol{\mu}_1 ) ( \boldsymbol{\mu}_0-\boldsymbol{\mu}_1 )^T
\end{aligned}
$$

基于 Lagrange 乘子法求解 LDA 模型

$$
\begin{aligned}
\min_{\text{w}} & - \text{w}^T S_b \text{w}\
\text{s.t. } & \text{w}^T S_w \text{w}=1\
\mathcal{L} ( \text{w},\lambda ) &= S_b\text{w} - \lambda S_w \text{w}=0
\end{aligned}
$$

多分类问题:假定存在 $N$ 个类,且 第 $i$ 类的示例数为 $m_i$

3.5 多分类学习

多分类学习的基本思路是「拆解法」,即将多分类任务拆分为多个二分类任务来求解

拆分策略

3.6 类别不平衡问题

「类别不平衡问题」是指分类任务中不同类别的训练样例数目差别很大的情况。例如:998个反例,2个正例

3.7 阅读材料

「稀疏表示」:使用 LASSO 通过 $L_1$ 范数来近似 $L_0$ 范数,从而求得稀疏解

「多标记学习」:为一个样本预测出多个类别标记