C02. Bayes 决策论
2.1 引言
Bayes 决策论是对折衷的量化,这个折衷源于使用概率进行不同分类决策与这种决策伴随的相应的代价。
- 决策问题可以用概率的形式来描述
- 假设所有有关的概率结构均为已知
Bayes 公式
- 先验概率:$P (\omega_j)$
- 似然函数:$p(x|\omega_j)$,也叫条件密度函数
- 假设特征值 $x$ 已知的条件下类别属于 $\omega_j$ 的概率,称之为 $\omega_j$ 关于 $x$ 的似然函数
- 表明在其他条件相等的情况下,使得 $p(x|\omega_j)$ 较大的 $\omega_j$ 更有可能是真实的类别
- 证据因子:$p(x)$
- 仅仅是一个标量因子,用于将后验概率归一化
- 后验概率:$P (\omega_j|x)=\frac{p(x|\omega_j)P(\omega_j)}{p(x)}$
- Bayes 公式:$\text{后验}=\frac{\text{似然函数}\times\text{先验}}{证据}$
判别条件
- 最小化误差概率条件下的 Bayes 决策规则
- 如果 $P(\omega_1|x)>P(\omega_2|x)$,则判别为 $\omega_1$;否则判别为 $\omega_2$
- 如果 $p(x|\omega_1)P(\omega_1)>p(x|omega_2)P(\omega_2)$,则判别为 $\omega_1$;否则判别为 $\omega_2$
- $P(\text{误差}|x)=min[P(\omega_1|x),P(\omega_2|x)]$
2.2 Bayes 决策论——连续特征
前提条件
- 多特征分类:特征向量 $\text{x}\in\mathbb{R}^d$
- 多类别分类:令 {$\omega_1,\cdots,\omega_c$} 表示有限的 $c$ 个类别的集合
- 多行为分类:令{$\alpha_1,\cdots,\alpha_a$} 表示有限的 $a$ 种可以采取的行为的集合
- 损失函数:也叫风险函数 $\lambda(\alpha_i|\omega_j)$ 描述类别状态为 $\omega_j$ 时采取行动 $\alpha_i$ 的风险
- $p(\text{x}|\omega_j)$ 表示 $\text{x}$ 的状态条件概率密度函数——在真实类别为 $\omega_j$ 的条件下 $\text{x}$ 的概率密度函数
- $P(\omega_j)$ 表示类别处理状态 $\omega_j$ 时的先验概率
- $P(\omega_j|\text{x})=\frac{p(\text{x}|\omega_j)P(\omega_j)}{p(\text{x})}$ 表示后验概率
- $p(\text{x})=\sum_{j=1}^c p(\text{x}|\omega_j)P(\omega_j)$ 表示证据因子
- $\lambda(\alpha_i|\omega_j)$ 表示当观测某个特定模式 $\text{x}$ 并且将采取行为 $\alpha_i$ 时,如果真实的类别状态为 $\omega_j$ 发生的损失
推导过程
- $R(\alpha_i|\text{x})=\sum_{j=1}^c \lambda(\alpha_i|\omega_j)P(\omega_j|\text{x})$ 表示实际类别状态为 $\omega_j$ 时的概率 与 行为 $\alpha_i$ 相关联的损失,即条件风险函数
- 一个预期的损失被称为一次风险
- $R=\int R(\alpha(\text{x})|\text{x})p(\text{x})\text{dx}$ 表示总风险
- Bayes 决策过程提供了一个总风险的优化过程
- 总风险是与某一给定的判决规则相关的预期损失
- 对所有的 $i=1,\cdots,a$ 计算条件风险,并且选择行为 $\alpha_i$ 使风险函数最小化,则最小化总风险
- 最小化后的总风险值称为 Bayes 风险,记为 $R^*$
实际案例:二分类问题
- $\lambda_{ij}=\lambda(\alpha_i|\omega_j)$ 定义为实际类别为 $\omega_j$ 时误判为 $\omega_i$ 所引起的损失
- 条件风险
$$
\begin{aligned}
R(\omega_1|\text{x})&=\lambda_{11} P(\omega_1|\text{x})+\lambda_{12} P(\omega_2|\text{x})\
R(\omega_2|\text{x})&=\lambda_{21} P(\omega_1|\text{x})+\lambda_{22} P(\omega_2|\text{x})
\end{aligned}
$$
- 判别规则:为真判为 $\omega_1$;否则判为 $\omega_2$
- $\frac{p(\text{x}|\omega_1)}{p(\text{x}|\omega_2)}$ 表示「似然比」,如果似然比超过某个不依赖于观测值 $\text{x}$ 的阈值,判为 $\omega_1$;否则判为 $\omega_2$
$$
\begin{aligned}
(\lambda_{21}-\lambda_{11})P(\omega_1|\text{x})&>(\lambda_{12}-\lambda_{22})P(\omega_2|\text{x})\
(\lambda_{21}-\lambda_{11})p(\text{x}|\omega_1)P(\omega_1)&>(\lambda_{12}-\lambda_{22})p(\text{x}|\omega_2) P(\omega_2)\
\frac{p(\text{x}|\omega_1)}{p(\text{x}|\omega_2)}&>\frac{\lambda_{12}-\lambda_{22}}{\lambda_{21}-\lambda_{11}} \frac{P(\omega_2)}{P(\omega_1)}
\end{aligned}
$$