Ch07

ZhuYuanxiang 2020-10-12 18:15:39
Categories: Tags:

C07. Bayes 分类器

7.1 Bayes 决策论

Bayes 决策论是概率框架下实施决策的基本方法。详细描述还可参考 [^Duda,2003] Ch02

前提条件

优化目标

实际案例

机器学习基于有限训练样本集估计后验概率的方法

$$
P ( c|\text{x} ) =\frac{P ( \text{x},c )}{P ( \text{x} )}=\frac{P ( c ) P ( \text{x}|c )}{P ( \text{x} )}
$$

7.2 极大似然估计

估计类条件概率的常用策略:先假定其具有某种确定的概率分布形式,然后基于训练样本对概率分布的参数进行估计

概率模型的训练过程就是参数估计的过程,参数估计的两种方案:

极大似然估计 ( Maximum Likelihood Estimation, MLE )

$$
\begin{aligned}
LL ( \boldsymbol{\theta}_c )
&=\ln P ( D_c|\boldsymbol{\theta}c ) \
&=\sum
{\text{x}\in D_c}\ln P ( \text{x}|\boldsymbol{\theta}_c )
\end{aligned}
$$

$$
\begin{aligned}
\hat{\boldsymbol{\mu}}c&=\frac1{|D_c|}\sum{\text{x}\in D_c} \text{x}\
\hat{\boldsymbol{\sigma}}c^2&=\frac1{|D_c|}\sum{\text{x}\in D_c} ( \text{x}-\hat{\boldsymbol{\mu}}_c ) ( \text{x}-\hat{\boldsymbol{\mu}}_c )^T
\end{aligned}
$$

7.3 朴素 Bayes 分类器

基于 Bayes 公式来估计后验概率 $P ( c|\text{x} )$ 需要面对类条件概率密度 $p ( \text{x}|c )$ 在所有属性上的联合概率很难从有限的训练样本中直接估计得到,因此朴素 Bayes 分类器采用「属性条件独立性假设」来避免求联合概率问题。

基于属性条件独立性假设,后验概率分布表示为

$$
P ( c|\text{x} ) =\frac{P ( c ) P ( \text{x}|c )}{P ( \text{x} )}=\frac{P ( c )}{P ( \text{x} )}\prod_{i=1}^d P ( \text{x}_i|c )
$$

因为所有类别的 $P ( \text{x} )$ 相同,所以朴素 Bayes 分类器的表达式
$$
h_{nb} ( \text{x} ) =\arg\max_{c\in\mathcal{Y}} P ( c ) \prod_{i=1}^d P ( \text{x}_i|c )
$$

朴素 Bayes 分类器的估计过程

7.4 半朴素 Bayes 分类器

基本思想:建模时考虑部分重要的依赖关系,既可避免计算联合概率,又可兼顾部分重要的依赖关系

「独依赖估计」( One-Dependent Estimator, ODE ) 是半朴素 Bayes 分类器常用策略,假设每个属性在类别之外最多仅依赖于一个其他属性

$$
P ( c|\text{x} ) \propto P ( c ) \prod_{i=1}^d P ( x_i|c,pa_i )
$$

「独依赖估计」的策略 ( Fig 7.1 不同分类器的属性依赖关系 )

$$
P ( c|\text{x} ) \propto\sum_{\quad i=1\|D_{x_i}|\geq m’}^d P ( c,x_i ) \prod_{j=1}^d P ( x_j|c,x_i )
$$

7.5 Bayes 网

Bayes 网,也叫「信念网」( Belief Network ),借助有向无环图 ( Directed Acyclic Graph, DAG ) 来刻画属性之间的依赖关系,并且使用条件概率表 ( Conditional Probability Table, CPT ) 来描述属性的联合概率分布。

Bayes 网 $B$ 由结构 $G$ 和参数 $\Theta$ 两部分构成,即 $B=\langle G,\Theta\rangle$

7.5.1 Bayes 网的结构

Bayes 网的结构有效地表达了属性间的条件独立性。

( Fig 7.3 ) 显示了 Bayes 网中三个变量之间的典型依赖关系

为了分析有向图中变量之间的条件独立性,可以使用「有向分离」技术,将有向图转变为无向图

7.5.2 Bayes 网的学习过程

若网络结构已知,即属性间的依赖关系已知,则 Bayes 网的学习过程相对简单

现实情况下,不知晓网络结构,因此找出结构「恰当」的 Bayes 网就是首要学习任务

算法过程

7.5.3 推断

Bayes 网络训练完成后就可以「推断」

7.6 EM 算法

存在「未观测」变量时,通过「期望最大化」( Expectation Maximization, EM ) 算法对模型参数进行估计

7.7 阅读材料

朴素 Bayes 分类器引入了属性条件独立性假设,虽然在现实情况下很难成立,但是在实际应用中却有相当好的性能

根据对属性间的依赖程度,Bayes 分类器形成了一个「谱」

Bayes 分类器与 Bayes 学习的区别

Bayes 网为不确定学习和推断提供了基本框架

EM 算法是最常见的隐变量估计方法