Ch04

ZhuYuanxiang 2020-10-12 18:15:39
Categories: Tags:

C04. 朴素 Bayes 法

朴素 (naive) Bayes 法 : 是基于 Bayes 定理与所有特征都遵循条件独立性假设的分类方法。

4.1 朴素 Bayes 的学习与分类

4.1.1 基本方法

前提条件

学习过程

$$
\begin{aligned}
P(X=\text{x}|Y=c_k)
&=P(X^{(1)}=\text{x}^{(1)},\cdots,X^{(n)}=\text{x}^{(n)}|Y=c_k)\
&=\prod_{j=1}^n P(X^{(j)}=\text{x}^{(j)}|Y=c_k)
\end{aligned}
$$

$$
\begin{aligned}
P(Y=c_k|X=\text{x})
&=\frac{P(X=\text{x}|Y=c_k)P(Y=c_k)}{\sum_k P(X=\text{x}|Y=c_k)P(Y=c_k)}\
&=\frac{P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=\text{x}^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=\text{x}^{(j)}|Y=c_k)}
\end{aligned}
$$

$$
\begin{aligned}
y=f(\text{x})
&=\arg\max_{c_k}\frac{P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=\text{x}^{(j)}|Y=c_k)}{\sum_k P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=\text{x}^{(j)}|Y=c_k)}\
&=\arg\max_{c_k} P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=\text{x}^{(j)}|Y=c_k)
\end{aligned}
$$

4.1.2 后验概率最大化的含义

后验概率最大化准则等价于期望风险最小化准则。

$$
L(Y,f(X))=
\begin{cases}
1,&Y\neq f(X)\
0,&Y=f(X)
\end{cases}
$$

$$
\begin{aligned}
R_{\text{exp}}
&=\mathbb{E}[L(Y,f(X))]\
&=\mathbb{E}X \sum{k=1}^K [L(c_k,f(X))]P(c_k|X)\
\end{aligned}
$$

$$
\begin{aligned}
f(\text{x})
&=\arg\min_{y\in\mathcal{Y}}\sum_{k=1}^K L(c_k,y)P(c_k|X=\text{x})\
&=\arg\min_{y\in\mathcal{Y}}\sum_{k=1}^K P(y\neq c_k|X=\text{x})\
&=\arg\min_{y\in\mathcal{Y}}\sum_{k=1}^K(1-P(y=c_k|X=\text{x}))\
&=\arg\min_{y\in\mathcal{Y}}\sum_{k=1}^K P(y=c_k|X=\text{x})
\end{aligned}
$$

4.2 朴素 Bayes 法的参数估计

目标 : 由训练数据学习联合概率分布;

4.2.1 极大似然估计

在朴素 Bayes 法中,学习意味着估计概率参数,极大似然估计就是常用的估计方法

$$
P(Y=c_k)=\frac{\sum_{i = 1}^N I(y_i=c_k)}{N},k=1,\cdots,K
$$

$$
P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i = 1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)}{\sum_{i = 1}^N I(y_i=c_k)}
$$

4.2.2 学习与分类算法

算法 4.1 (朴素 Bayes 算法)

$$
y=\arg\max_{c_k} P(Y=c_k)\prod_{j=1}^n P(X^{(j)}=\text{x}^{(j)}|Y=c_k)
$$

4.2.3 Bayes 估计

为了避免极大似然估计出现估计的概率值为0的情况,可以采用 Bayes 估计

$$
P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i = 1}^N I(x_i^{(j)}=a_{jl},y_i=c_k)+\lambda}{\sum_{i = 1}^N I(y_i=c_k)+S_j\lambda}
$$

$$
P_\lambda(Y=c_k)=\frac{\sum_{i = 1}^N I(y_i=c_k)+\lambda}{N+K\lambda}
$$

本章概要