C10. 近似推断
因为隐变量的数量可能有指数多个,精确计算的代价过高,因此需要借助近似方法。
- 常用的近似方法
- 随机近似:Markov Monte Carlo 方法(C11)给定无限的计算资源,可以生成精确的结果,但是在实际应用中多处理小规模数据的问题。
- 确定近似:基于对后验概率分布的解析近似,无法生成精确的结果,可以应用于大规模数据的问题。
- 假设后验概率分布可以基于一种特定的方式分解
- Laplace 近似:基于对概率分布的峰值的局部高斯近似
- 变分推断(也叫变分贝叶斯),使用了更加全局的准则
- 期望传播(变分的框架)
- 假设后验概率分布可以有一个具体的参数形式
- 高斯分布
- 假设后验概率分布可以基于一种特定的方式分解
S10. 前言
- 重点
- 变分在一元高斯分布中的应用
- 变分在混合高斯模型中的应用
- 变分在线性回归模型中的应用
- 局部变分在 Logistic 回归中的应用
- 难点
- 变分推断
- 指数族分布
- 期望传播
- 学习基础
- 泛函分析之变分法
- 信息论中的 KL 散度
- 概率分布的共轭分布
- 混合高斯模型
- 线性回归模型
- Logistic 回归模型
- 学习要点
S10.1. 变分推断
- 变分推断
变时,泛函的值的变化情况。(附录 D)- 限制需要最优化算法搜索的函数的范围
- 限制近似概率分布的范围的方法
- 使用参数概率分布来近似,利用非线性最优化方法确定参数的最优值。
- 假设近似的概率分布可以进行分解(在物理学中的一个近似框架,叫做平均场理论)
- 恰当地初始化所有的因子
- 在各个因子上进行循环,每一轮用一个修正后的估计来替换当前的因子
- 算法保证收敛,因为下界关于每个因子是一个凸函数
- 限制近似概率分布的范围的方法
- 在概率推断的应用中,限制条件的形式概率分布是可以分解的函数
- 限制条件的唯一目的就是为了计算方便
- 在满足计算方便的条件下,应该尽可能使用丰富的近似概率分布
- 即使选择高度灵活的概率分布也不会有 “过拟合” 现象,只是会更好地近似真实的后验概率分布。
- 限制需要最优化算法搜索的函数的范围
- 近似概率分布可分解模型的性质
- 各个因子的解是相互偶合的
- 将变分解看成重估计议程,然后在变量之间循环更新这些解,直到满足某个收敛准则。
- 最小化相反的 KL 散度 KL$(p \Vert q)$ 是期望传播近似推断框架中的目标。
- 注意两种 KL 散度的区别 (P320 F10.3.)
- 变分在一元高斯分布中的应用(用于理解变分推断的例子,实际情况上基本不会使用)
- 模型比较(了解即可)
S10.2. 变分在混合高斯模型中的应用
- 基本过程
- 混合高斯模型的似然函数
- 引入参数上的先验概率分布
- 为每个参数引入共轭先验分布
- 变分后验概率分布的最优化涉及到两个阶段之间进行循环,这两个阶段类似于最大似然 EM 算法的 E 步骤和 M 步骤。
- 隐变量与参数之间的区别
- 在概率图的方框内部的变量被看作隐变量,因为这类变量的数量随着数据集规模的增大而增大
- 在概率图的方框外部的变量被看作参数,因为这类变量的数量与数据集的规模无关
- 从图模型的观点来看,它们之间没有本质的区别
- 贝叶斯方法与最大似然方法的区别
- 随着数据量趋向于无穷时,贝叶斯方法就收敛于最大似然方法的 EM 解。
- 混合高斯模型的变分算法的主要的计算代价来自于 “责任” 的计算,以及加权数据协方差矩阵的计算与求逆。
- 最大似然方法中遇到的高斯分量 “退化” 产生的奇异性,在贝叶斯方法中不存在
- 混合高斯模型中数量 K 选得较大时,在贝叶斯方法中不会出现过拟合问题
- 在确定 K 的最优数量时不需要借助于交叉验证技术
- 贝叶斯方法自动在模型复杂度和数据拟合之间进行平衡
- 通过自动相关性确定的方式将贡献比较小的分量的混合系数趋于零,即分量的稀疏性(S7.2.)
- 变分的下界:方便确定模型的下界,有利于检测模型学习是否收敛
- 变分的下界还提供了推导变分重估计方程的方法
- 对于新的观测变量可以得到它的预测概率密度
- 诱导分解 (induced factorizations):在变分后验分布中假定的分解方式与真实联合概率分布的条件独立性质之间的相互作用产生了诱导分解。
S10.3. 变分在线性回归模型中的应用
- 变分应用的过程
- 构建变分分布
- 构建预测分布
- 确定变分下界
S10.4. 指数族分布
- 构建变分分布
- 推导计算过程
- 变分信息传递
- 通过对贝叶斯方法应用于混合高斯模型的推导,得到一些更加普适性的结果
- 变分推断的过程可以转化为局部信息传递算法
S10.5. 局部变分方法
- 全局变分方法(S10.1. 和 S10.2.):直接寻找所有随机变量上的完整的后验概率分布的近似
- 局部变分方法:寻找模型中的单独的变量或者变量组上定义的函数的界限,从而简化最终得到的概率分布。这个局部近似可以应用于多个变量,直到最终得到一个可以处理的近似。
- 局部变分在 Logistic 回归中的应用