Ch08

ZhuYuanxiang 2020-10-12 18:15:39
Categories: Tags:

C08. 集成学习

8.1 个体与集成

集成学习 ( Ensemble Learning ) 通过构建并且结合多个学习器来完成学习任务,也被称为多分类器系统 ( Multi-Classifiter System ) 、基于委员会的学习 ( Committee-Based Learning ) 等等。

集成学习的一般结构:先产生一组「个体学习器」 ( Individual Learner ) ,再用某种策略将它们结合起来。

集成学习通过将多个学习器进行结合,常可获得比单一学习器更好的泛化性能,对「弱学习器」更加明显,因此集成学习的许多理论研究都是针对弱学习器进行 的,而基学习器也被称为弱学习器。

集成学习的质量依赖于个体学习器要「好而不同」

假设基分类器的错误率朴素独立,则集成的错误率将随着集成的数目呈指数级下降,并且最终趋向于零

常用的集成学习方法

8.2 Boosting

Boosting 算法的工作机制

基于「加性模型」的 AdaBoost 算法

$$
\begin{aligned}
\text{sign}(H ( \text{x}))
&=\text{sign}(\frac12\ln\frac{P(f ( \text{x})=1|\text{x})}{P( f ( \text{x})=-1|\text{x})})\
&=\begin{cases}
1,&P( f ( \text{x})=1|\text{x})>P( f ( \text{x})=-1|\text{x})\
-1,&P( f ( \text{x})=1|\text{x})<P( f ( \text{x})=-1|\text{x})
\end{cases}\
&= \arg\max_{y\in{-1,1}} P( f ( \text{x})=y|\text{x})
\end{aligned}
$$