Ch14

ZhuYuanxiang 2023-10-20 10:22:26
Categories: Tags:

C14. 组合模型

要点

14.1 Bayes 模型平均

「模型组合方法」与「Bayes 模型平均方法」的区别,通过具体案例 ( 高斯混合模型进行概率密度估计 ) 对比

14.2 委员会算法

最简单的委员会算法:对一组独立的模型的预测取平均。

单独数据集的委员会算法:自助 ( Bootstrap ) 数据集

$$
\begin{aligned}
E_{\text{委员会}}
&=\mathbb{E}{\text{x}}\biggl[{\frac1M \sum{m=1}^M y_m ( \text{x} ) -h ( \text{x} ) }^2\biggl]\
&=\mathbb{E}{\text{x}}\biggl[{\frac1M \sum{m=1}^M \epsilon_m ( \text{x} ) }^2\biggl]
\end{aligned}
$$

14.3 提升方法

「可调节提升方法」 ( Adaptive Boosting, AdaBoost )

AdaBoost 算法的形式化描述

14.3.1 最小化指数误差

提升方法起源于统计学习理论,得到了泛化误差的上界。[^Friedman,2000] 根据对指数误差函数的顺序最小化,给出了 AdaBoost 的更加简单有效的表述。

$$
\begin{aligned}
E
&=\sum_{n=1}^N \exp{-t_n f_{m-1} ( \text{x}_n ) -\frac12 t_n \alpha_m y_m ( \text{x}n ) }\
&=\sum
{n=1}^N w_n^{( m )}\exp{-\frac12 t_n \alpha_m y_m ( \text{x}n ) }\
&=\exp{-\frac{\alpha_m}2}\sum
{n\in\mathcal{T}m} w_n^{( m )}+\exp{\frac{\alpha_m}2}\sum{n\in\mathcal{M}m} w_n^{( m )}\
&= ( \exp{\frac{\alpha_m}2}-\exp{-\frac{\alpha_m}2} ) \sum
{n=1}^N w_n^{( m )} I ( y_m ( \text{x}m ) \neq t_n ) +\exp{-\frac{\alpha_m}2}\sum{n=1}^N w_n^{( m )}
\end{aligned}
$$

14.3.2 提升方法的误差函数

期望误差函数:$\mathbb{E}_{\text{x},t}[\exp{-t y ( \text{x} ) }]=\sum_t \int\exp{-t y ( \text{x} ) } p ( t|\text{x} ) p ( \text{x} ) \text{dx}$

四种误差函数的对比(Fig 14.3)

提升方法可以表示为指数误差函数下的可加性模型的最优化

14.4 基于树的模型

分类与回归树(Classification and Regression Tree, CART )

基于树的模型

14.5 条件混合模型

标准的决策树模型:对输入空间的划分是硬的、与坐标轴对齐的

专家模型的层次混合(Hierarchical Mixture of Experts):对输入空间的划分是软的、概率形式的。划分是所有输入变量的函数,而不仅仅是某个输入变量的函数。叶结点的模型也是概率形式。就可以得到一个的概率形式的基于树的模型。

线性回归模型的混合 和 [Logistic回归模型](#14.5.2-Logistic 回归模型的混合)的混合:另一种专家层次混合模型,从标准的非条件密度模型(例如:Gauss 分布)的概率混合开始,将分量概率密度替换为条件概率密度,混合系数与输入变量无关

专家模型的混合:混合系数与输入变量相关

14.5.1 线性回归模型的混合

14.5.2 Logistic 回归模型的混合

14.5.3 专家模型的混合