Ch05

ZhuYuanxiang 2023-10-20 10:22:26
Categories: Tags:

Ch 05. 神经网络

提纲

重点

难点

基础

要点

大规模问题需要可调节基函数

神经网络: Ch 06 ( 相同的基函数,不同的基函数的参数 )

神经网络学习点

神经网络的函数形式

使用最大似然框架确定神经网络参数

神经网络训练的正则化方法,以及方法之间的联系

混合密度网络

基于贝叶斯观点的神经网络,具体可以参考 [^Bishop,1995]

5.1. 前馈神经网络

前向传播的神经网络函数 ( 熟练地使用这些公式将有助于后面的推导 )

$$
y(\text{x,w})=f\biggl(\sum_{j=1}^M w_j\phi_j(\text{x})\biggl)
$$

基本神经网络模型(Fig 5.1)

$$
a_j=\sum_{i=1}^D w_{ji}^{(1)}x_i+w_{j0}^{(1)}
$$

$$
a_k=\sum_{j=1}^M w_{kj}^{(2)}z_j+w_{k0}^{(2)}
$$

$$
y_k(\text{x,w})=\sigma\biggl(\sum_{j=1}^M w_{kj}^{(2)}h(\sum_{i=1}^D w_{ji}^{(1)}x_i+w_{j0}^{(1)})+w_{k0}^{(2)}\biggl)\tag{5.7}
$$

$$
y_k(\text{x,w})=\sigma\biggl(\sum_{j=0}^{M}w_{kj}^{(2)}h(\sum_{i=0}^{D}w_{ji}^{(1)}x_i)\biggl)
$$

多层感知器 ( Multilayer Perceptron, MLP ) 与感知器模型的区别

多层感知器的性质

多层感知器的扩展

多层感知器的限制

5.1.1 权空间对称性

激活函数的对称性:导致权空间中解的对称性。即网络不同的权向量 $\text{w}$ 的选择,可能产生相同的输入到输出的映射函数。

5.2. 网络训练

(网络训练的本质就是确定参数,估计参数就是基于最优化理论对误差函数求极值)

回归问题

分类问题

5.2.1 参数最优化

参数最优化: ( 如果你对最优化不熟悉,建议参考 [^袁亚湘,1997];如果很熟悉,则可以浏览一下 )

梯度为零的点为驻点,分为极小值点、极大值点和鞍点。

对于所有的权向量,误差函数的最小值称为全局最小值。

任何其他的使误差函数的值较大的值称为局部极小值。

神经网络不是必须找到全局最小值,可以找到几个局部极小值,再从中选出足够好的解就可以满足需要了。

因为无法找到方程 $\nabla E(\text{w})=0$ 的解析解,可以使用迭代的数值方法。$\text{w}^{(\tau+1)}=\text{w}^{(\tau)}+\Delta\text{w}^{(\tau)}$

5.2.2 局部二次近似

误差函数 $E(\text{w})$ 在权值空间某点 $\hat{\text{w}}$ 处的泰勒展开:
$$
E(\text{w})\simeq E(\hat{\text{w}})
+(\text{w}-\hat{\text{w}})^T \nabla E|_{\text{w}=\hat{\text{w}}}
+\frac12(\text{w}-\hat{\text{w}})^T\text{H}(\text{w}-\hat{\text{w}})
\tag{5.28}
$$

理解误差函数的局部二次近似,可以更好地理解最优化问题,以及各种解决最优化问题的方法

误差函数 $E(\text{w})$ 在权值空间最小值点 $\text{w}^*$ 附近的局部二次近似:
$$
E(\text{w})\simeq E(\text{w}^*)
+\frac12(\text{w}-\text{w}^*)^T\text{H}(\text{w}-\text{w}^*)
\tag{5.32}
$$

Hessian 矩阵在点 $\text{w}^*$ 处的计算:

5.2.3 使用梯度信息

使用梯度信息构成了训练神经网络的基础。

使用误差反向传播算法可以高效地计算误差函数的梯度。Sec 5.3

5.2.4 梯度下降最优化

5.3. 误差反向传播

误差反向传播 ( Error Backporrogpagation ) :也叫反传 ( backprop ),其目的是为了寻找一种高效算法,用于计算前馈神经网络的误差函数 $E ( \text{w} )$ 的梯度,因此利用局部信息传递的思想,使得信息在神经网络中交替地向前和向后传播。

反向传播方法的重要贡献:提供了 高效地 计算误差函数的方法

5.3.1 误差函数导数的计算

5.3.3 反向传播的效率

5.3.4 Jacobian 矩阵

5.4 Hessian 矩阵

5.4.1 对角近似

5.4.2 外积近似

5.4.3 Hessian 矩阵的逆矩阵

5.4.4 有限差

5.4.5 Hessian 矩阵的精确计算

5.4.6 Hessian 矩阵的快速乘法

5.5 神经网络的正则化

5.5.1 相容的高斯先验

5.5.2 早停止

5.5.3 不变性

5.5.4 切线传播

5.5.5 用变换后的数据训练

5.5.6 卷积神经网络

5.5.7 软权值共享

5.6 混合密度网络

混合密度网络 ( mixture density network )

5.7 Bayes 神经网络

5.7.1 后验参数分布

5.7.2 超参数最优化

5.7.3 用于分类的 Bayes 神经网络

小结

如果需要深入了解神经网络,建议参考 [^Haykin,2011]。本书的重点只是引入 Bayes 观点的神经网络。