《神经网络与机器学习》的读书笔记

3 分钟读完

全书总评

  • 书本印刷质量: 4 星。印刷清楚, 排版合适, 错误很少。只是 “机械工业出版社” 的教材好像纸张的质量都不是很好。
  • 著作编写质量: 4 星。个人觉得是神经网络方面的经典教材, 数学推导更加完整,更易于理解。只是作者写书的角度,不是机器学习的,而是信号处理系统的,许多名词对于非信号处理专业的同学可能不好理解。作者加了不少自己的研究方向,如果没有这个方面的基础,看起来比较吃力,而且对于自己的帮助不大,最好跳过。
  • 著作翻译质量:3 星。其实全书翻译没有本质问题,只是行文上过于靠近英文的风格,读起来比较拗口。还有就是有些名词跟某些专业名词冲突,例如:离散这个词,在信号处理是离散信号的意思,但是作者使用的是离散的本意,建议使用统计学中方差可能更容易理解,否则很容易糊涂。
  • 笔记目的: 记录重点, 方便回忆。

前言

监督学习的经典方法

  • C01.Rossenblatt 感知器
  • C02. 通过回归建立模型: 即模型建立基础的最小二乘法, 以及用于模式选择的最小描述长度算法。
  • C03. 最小均方算法 (LMS): 算法推导及收敛性分析
  • C04. 多层感知器:
    • 反向传播算法
    • 自适应控制:学习率最优退火算法
    • 交叉验证
    • 卷积网络
    • 将监督学习作为最优化问题:共轭梯度法、拟牛顿法、Marquardt-Leven-berg 算法
    • 非线性滤波

基于径向基函数 (RBF) 网络的核方法

  • C05. 核方法 (Kernel Method)
    • RBF 网络构造结构的理论证明
    • 用于监督学习的两阶段混合过程:基于聚类思想来计算隐藏层,利用 LMS 或最小二乘法来计算网络的线性输出层。
  • C06. 支持向量机 (SVM)
    • 定义线性可分的最大分离边缘的条件;
    • 寻找最优超平面的二次最优化;
    • 将 SVM 视为核机器
    • SVM 的设计原理

机器学习的核心——C07. 正则化理论

  • 主要内容:
    • RKHS 基础之上的 Tikhonov 经典正则化理论。
    • 广义 RBF 网络
    • 正则最小二乘估计,根据表示定理再讨论
    • 正则化参数估计,利用 Wahbar 广义交叉验证概念
    • 半监督学习,利用有标签和无标签样本
    • 设计半监督学习机的基础——可微流形正则化
    • 半监督学习的 RBF 网络中高斯核函数的光谱图理论
    • 半监督机器的广义表示定理
    • Laplace 正则最小二乘算法(LapRLS)用于计算 RBF 网络线性输出层
  • 高度理论化的章节的重要意义:
    • 提供了关于监督学习机的正则化基础
    • 打下了设计正则化半监督学习机的基础

非监督学习

  • C08. 主成分分析(主分量分析)
    • 自增强学习的 Hebb 设定
    • 单个神经元或者一组神经元的突触连接为了有限的资源而进行的竞争
    • 获得胜利的神经元及其邻居间的合作
    • 包含于输入数据中的结构信息(如冗余)。
  • C09. 自组织映射(SOM)
    • 从空间上离散逼近输入空间,负责数据生成
    • 拓扑次序:在某种意义上神经元的空间位置在拓扑图上对应于输入空间中的特定特征
    • 输入输出密度匹配
    • 输入数据特征选择
  • C10. 信息论学习模型
    • 最大互信息原则,最大化神经系统的输入和输出之间的互信息,最大互信息和冗余减少之间的关系;
    • Imax 原则,最大化每一对神经系统的对应输出之间的互信息;
    • Imin 原则,最小化输出的每一对随机变量之间的互信息。
    • ICA 原则(独立成分分析,独立分量分析),盲分离来自统计独立源信号的隐藏集合。
      • 自然梯度学习算法
      • 最大熵学习算法
      • FastICA(快速 ICA)算法
  • C11. 随机方法:源自统计力学
    • Helmholtz 自由能和熵
    • Markov 链
    • 产生于 Markov 链的 Metropolis 算法
      • 全局最优化的模拟退火算法
      • Gibbs 抽样
    • Boltzmann 机:多层学习机器,学习过程非常慢,产生了深度学习网络
    • 深度学习的主要功能
      • 生成模型,无监督地一层一层自底向上学习所得的结果
      • 推论,自顶向下学习所得的结果
    • 确定性退火克服模拟退火的计算需求问题,但是可能陷入局部极小点

强化学习:以一种在线方式强化智能体与周围环境相互作用的结果

  • C12. 动态规划:强化学习的核心
  • C15. 动态驱动递归网络
    • 对比不同的递归神经网络结构(模型)及其计算能力
    • 训练递归网络的两个算法
      • 通过时间的反射传播学习
      • 通过实时递归学习
    • Bellman 动态规划方法
    • 用 Bellman 来证明两个强化学习方法
      • 时序差分学习(TD)
      • Q - 学习
    • 逼近动态规划的非直接方法
      • 线性方法:利用最小二乘策略评估(LSPV)算法
      • 非线性方法:利用神经网络作为通用逼近器

非线性反馈系统,特别强调递归神经网络

  • C13. 神经动力学
    • Lyapunov 直接法的核心是 Lyapunov 函数
    • Lyapunov 包含的两个定理
      • 处理系统稳定性
      • 处理渐近稳定性
    • Lyapunov 引出的两种联想记忆模型
      • Hopfield 模型:模型的操作说明复杂的系统也能产生简单的突现行为
      • 盒中脑状态模型:聚类的基础
    • 讨论了混沌过程及其动态重构的正则化过程
  • C14:Bayes 滤波器
    • Kalman 滤波器本质上是预测——改正机制
    • Kalman 滤波器是 Bayes 滤波器的特例,在经典的线性高斯环境下可以通过最小均方差准则来推导;
    • Kalman 滤波器在实际应用中遇到的发散现象可以通过平方根滤波来克服;
    • 扩展 Kalman 小小(EKF)可以用来解决动力系统中非线性属于软排序的情况,并且保持高斯假设;
    • 数值积分 Kalman 滤波器(CKF)可以证明 Bayes 滤波器的直接逼近形式,并且保持高斯假设;
    • 粒子滤波器可以证明 Bayes 滤波器的非直接逼近形式,能够调节非线性程度和非高斯程度

C0. 导言

学习神经网络的全部基础知识。

  • 神经网络是什么?
    • 定义:文字描述、数学描述、有向图描述
    • 结构:单层、多层、循环
  • 神经网络能够干什么?

0.1. 神经网络

  • 神经网络: 简单处理单元构成的大规模并行分布式处理器, 天然地具有存储经验知识和使之可用的特性。
    • 神经网络是通过学习过程从外界环境中获取知识;
    • 互连神经元的连接强度, 即突触权值, 用于存储获取的知识。
  • 学习算法: 用于完成学习过程的程序, 以有序的方式改变网络的突触权值以获得想要的设计目标。
  • 神经网络的优点:
    • 大规模并行分布式结构;
    • 学习能力以及由此得到的泛化能力。
      • 泛化: 神经网络对未在训练 (学习) 过程中遇到的数据可以得到合理的输出。
  • 神经网络的性质:
    • 非线性: 分布于整个网络中。
    • 输入输出映射: 亦称有老师学习或监督学习。
      • 输入信号: 训练样本或任务样本;
      • 输出信号: 期望响应或目标响应;
      • 目标: 最小化期望响应和实际响应之间的差别。
    • 自适应性: 调整自身突触权值以适应外界环境变化
    • 证据响应: 在模式分类问题中, 可以提供关于决策的置信度信息。
    • 上下文信息: 特定结构和激发状态代表知识
    • 容错性: 并行分布式结构具有天生的容错性, 或者有鲁棒计算的能力, 在不得的运行条件下性能是逐渐下降的
    • VLSI 实现: 适合使用超大规模集成电路进行实现
    • 分析和设计的一致性: 作为信息处理器具有通用性。
    • 神经生物类比:

0.3. 神经元模型

  • 神经元模型的三处基本元素:
    • 突触或连接链集: 输入信号乘以突触权值;
    • 加法器: 对突触输出值求和;
    • 激活函数: 限制神经元输出振幅。
      • 阈值函数
      • sigmoid 函数
  • 神经元的统计模型:

0.4. 用有向图描述神经网络

  • 信号流图: 是一个由在特定的称为节点的点之间相连的有向连接 (分支) 组成的网络。
  • 信号流动的三条基本规则:
    • 信号仅仅沿着定义好的箭头方向在连接上流动;
    • 节点信号等于经由连接进入的有关节点的所有信号的代数和;
    • 节点信号沿每个外向连接向外传递, 此时传递的信号完全独立于外向连接的传递函数。
  • 神经网络有向图的 4 个主要特征:
    • 每个神经元可表示为一组线性的突触连接, 一个外部应用偏置, 以及可能的非线性激活连接;
    • 神经元的突触给它们相应的输入信号加权;
    • 输入信号的加权和构成该神经元的诱导局部域;
    • 激活连接压制神经元的诱导局部域产生输出。
  • 完全的有向图: 神经元间的信号流 + 每个神经元内部的信号流。
  • 局部完全的有向图: 又称为神经网络结构图
    • 源节点向图提供输入信号;
    • 每个神经元称为计算节点, 用单个节点表示;
    • 联结图中源节点和计算节点之间的通信连接没有权值, 仅仅提供图中信号流的方向。
  • 神经网络的三种图形表示方法:
    • 方框图: 提供网络的功能描述;
    • 结构图: 描述网络布局;
    • 信号流图: 提供网络中完全的信号流描述。

0.5. 反馈 (信号处理系统的思路)

  • 递归网络→单环反馈系统:
  • 算子:
    • 闭环算子
    • 开环算子
    • 延迟算子
  • 系统:
    • 稳定性
    • 记忆性

0.6. 网络结构

  • 单层前馈网络: 最简单的分层网络, 严格前馈的;
  • 多层前馈网络: 输入层 + 隐藏层 + 输出层
  • 递归网络:

0.7. 知识表示

  • 知识: 就是人或机器储存起来以备使用的信息或模型, 用来对外部世界作出解释、预测和适当的反应。
    • 先验信息
    • 对世界的观测
  • 知识表示的规则:
    • 相似类别中的相似输入通常应产生网络中相似的表示, 因此可以归入同类
    • 网络对可分享为不同各类的输入向量给出差别很大的表示
    • 如果某个特征很重要, 那么网络需要使用大量神经元来表示这个向量
    • 如果存在先验信息和不变性, 应该将其附加在网络设计中, 这样就不必学习这些信息而简化网络设计
  • 知识加入神经网络设计的技术:
    • 通过使用接收域的局部连接, 限制网络结构
    • 通过使用权值共享, 限制突触权值的选择
  • 不变性加入神经网络设计的技术:
    • 结构不变性
    • 训练不变性
    • 不变特征空间

0.8. 学习过程

  • 有教师学习: 也称为监督学习, 误差 - 修正学习, 闭环反馈系统
  • 无教师学习:
    • 强化学习: 学习是通过与环境的不断交互完成的, 使一个标量性能指标达到最小
    • 无监督学习: 任务独立度量来度量网络的表达质量, 让网络学习该试题而且将根据这个度量来最优化网络自由参数。

0.9. 学习任务

  • 模式联想: 依靠联想学习的分布式记忆
    • 自联想: 检索 (回忆) 已经存储的模式, 无监督学习;
    • 异联想: 任意的输入模式集合与输出模式集合配对, 有监督学习;
    • 联想记忆模式操作的两个阶段:
      • 存储阶段: 对网络进行训练
      • 回忆阶段: 恢复对应的存储模式
    • 存储能力: 正确回忆的模式数量
  • 模式识别: 将接收到的模式或信号确定为一些指定类别的某个类;
    • 作特征提取的无监督网络
    • 作分类的有监督网络: 遵循传统的统计特性模式识别方法
  • 函数逼近:
    • 系统辨识
    • 逆模型
  • 系统控制: 对设备的输入输出行为进行转换
    • 间接学习
    • 直接学习
  • 波束形成: 区分目标信号和背景噪声之间的空间性质

0.10. 结束语

学习的三个重要类别:

  1. 有监督学习: 通过最小化感兴趣的代价函数来实现特定的输入 - 输出映射, 需要提供目标或者期望的响应。需要依赖于有标记的训练样本, 每个样本由输入信号 (刺激) 和期望响应 (目标) 组成。
  2. 无监督学习: 依赖于网络在自组织方式下学习所需要的对表示质量的 “任务独立度量”。利用无标记的训练样本进行聚类。
  3. 半监督学习: 采用有标记和无标记的样本。
  4. 强化学习: 学习系统通过持续地与其环境的交互来最小化一个标量性能指标, 从而实现输入 - 输出映射。

C01.Rossenblatt 感知器

  • 1.1. 神经网络的历史: 线性可分模式
  • ** 学习重点 **
    • 1.2. Rossenblatt 感知器的最基本形式: 一个非线性神经元, 即神经元的 McCulloch-Pitts 模型
    • 1.3. 感知器收敛定理
    • 1.6. 感知器的代价函数
  • 只需要了解, 未来深入学习
    • 1.4. 高斯环境下感知器与 Bayes 分类器之间的关系
    • 1.5. 通过实验来了解感知器的分类能力
  • 1.7. 总结与讨论

1.3. 感知器收敛定理

  • 感知器的权值向量自适应算法:
    • 权值更新
    • 学习率参数
      • 较小的值可以提供稳定的权值估计
      • 较大的值可以快速地完成权值估计
    • 绝对误差修正过程
  • 表 1.1 感知器收敛算法概述

1.4. 高斯环境下感知器与 Bayes 分类器之间的关系

  • Bayes 分类器是经典的统计学习下的模式分类器
  • 研究高斯环境下感知器与 Bayes 分类器的关系有助于深入理解感知器的数学原理
  • 相似和区别:
    • 都是线性分类器;
    • 两个高斯分布的模式是互相重叠的, 不是线性可分的, 而感知器只能处理线性可分的问题, 因此对于高斯分布模型会持续振荡, 无法收敛;
    • Bayes 分类器最小化分类误差的概率;
    • 感知器收敛算法是非参数的, 而 Bayes 分类器是参数的;
    • 感知器收敛算法是自适应且实现简单的, 而 Bayes 分类器是固定的。

1.6. 感知器的代价函数

  • 感知器代价函数的广义形式
  • 感知器收敛算法的批量处理

C02. 通过回归建立模型

本章重点是线性回归模型和估计问题,但是作者看待这类问题的角度不是很好理解,不建议对后面的部分进行深入学习。

  • ** 学习重点 **
    • 2.2. 线性回归模型的数学框架
    • 线性回归模型的参数向量估计
      • 2.3. 最大后验 (maximum a posteriori, MAP) 处理参数估计问题,Bayes 理论;
      • 2.4. 最小二乘法处理参数估计问题,正则理论;
  • 只需要了解
    • 2.5. 最小二乘法的模式分类实验
    • 2.6. 模型复杂度:即模型阶数的选择问题
    • 2.7. 参数估计中固定样本容量面临的偏置 —— 离散(即偏差 —— 方差)困境
    • 2.8. 利用工具变量 (instrumental variable) 来处理变量误差 (errors-in-variables) 问题
  • 2.9. 总结与讨论
  • 补:偏置即统计中的偏差;离散即统计中的方差;

2.1. 引言

  • 回归模型 (regression mmodel) 的典型方案:
    • 依赖变量:或称响应 (response) ,随机变量中受到特别关注的某个变量;
    • 独立变量:或称回归量 (regressor) ,即剩下的随机变量,用来解释或者预测响应的统计行为;
    • 期望误差 (expectational error) 或解释误差 (explanational error),也属于响应对回归量的依赖的一部分,用来说明在对依赖程度公式化时候的不确定性。
  • 回归模型的分类:
    • 线性回归模型:响应对回归量的依赖是通过线性函数定义的,数学分析较容易;
    • 非线性回归模型:响应对回归量的依赖是通过非线性函数定义的,数学分析很困难;
  • 回归模型的参数估计:
    • 最小二乘估计:使用实际值与估计值的差的平方作为距离度量,得到代价函数;
    • 最大似然估计:使用概率论的角度来看待最小二乘估计;
    • 最大后验估计:使用贝叶斯的角度来增加先验知识。
    • 补:不太习惯作者的撰写思路,我更喜欢自己列的这个理解顺序
    • 推荐参考书《独立成分分析》第 4 章 估计理论

2.2. 线性回归模型的数学框架

  • 回归量 x 及随机向量 X ,响应 d 及随机向量 D ,参数 w ,期望误差 ε

2.3. 参数向量的最大后验估计

  • 隐含的 4 个概率密度函数:
    • 观测密度 (observation density):条件概率密度函数,表示在给定参数向量 w 下,回归量 x 对环境响应 d 的 “观测”;通常使用似然函数来表示;
    • 先验 (prior):概率密度函数,表示的是参数向量 w 的信息,不是从环境中观测得到的,而是提前知道的;
    • 后验 (posterior):条件概率密度函数,表示观测环境完成之后的参数向量 w;后验密度与似然函数和先验的乘积成正比。
    • 证据 (evidence):概率密度函数,表示包含在响应 d 中的信息,用于统计分析。
  • 参数估计:
    • 最大似然估计 (ML):忽略了先验信息;
    • 最大后验估计 (MAP):需要更大的计算量;
  • 高斯环境下的参数估计:
    • 重要假设:
      • 所有样本必须是独立且同分布的 (independent and identically distributed, iid);
      • 所有样本必须符合高斯分布
      • 所有样本必须符合平稳分布

2.4. 正则最小二乘估计与最大后验估计之间的关系

  • 通过结构正则化 (structural regularization) 解决最小二乘估计存在的问题
  • 正则最小二乘估计得到的正则最小二乘解 <=>MAP 估计的解

2.6. 最小描述长度原则

  • 线性模型对于随机过程的描述的应用
    • 合成 (synthesis):生成模型 (generative model),即通过给模型参数分配给定集合的数值来产生希望的时间序列,并将之和均值为 0,方差预先给定的,白噪声结合起来;
    • 分析 (analysis):利用给定的有限长度的时间序列,使用 Bayes 方法或正则最小二乘法估计参数。为了在合适的范围内估计参数,需要考虑模型的阶数,即模型选择(model selection) 问题。
  • 模型选择的最小描述长度 (minimum-description-length, MDL) 原则
    • 复杂度定义:用于打印出这个序列然后终止的最短二进投影计算机程序的长度。
    • 概率模型的简单两部分编码 MDL 原则 (simplistic two-part code MDL principle)
  • 模型阶的选择(model-order selection problem):
    • 误差项,与模型以及数据相关;
    • 复杂度项,仅仅和模型相关。
  • MDL 原则的贡献:
    • 当有两个模型对于给定的数据序列匹配得一样好的时候,MDL 原则选择 “最简单的” 那个,即它允许利用对数据更短的描述;
    • MDL 原则是一致的 (consistent) 模型选择估计器,随着样本个数的增加,收敛于真的模型阶。

2.7. 固定样本大小考虑

  • 一般最小二乘估计或最大似然估计的最大局限:非唯一性和不稳定性,即过拟合 (overfitting) 问题。
  • 偏差 —— 方差困境:
    • 在有限样本下,小的偏差导致大的方差;
    • 增加噪声的作用,就是增加偏差从而减少方差,即减少不确定性。