《模式识别与机器学习》的第二章

ZhuYuanxiang 2019-04-15 00:00:00
Categories: Tags:

Ch 02. 概率分布

提纲

重点

难点

学习要点

密度估计 ( density estimation ) : 在给定有限次观测 $x_1,\cdots,x_N$ 的前提下,对随机变量 $x$ 的概率分布 $p ( x )$ 建模。

学习方式

参数分布 ( parametric distribution ) : 少量可调节的参数控制了整个概率分布。

指数族分布 ( exponential family ) : 具有指定的指数形式的概率分布的集合。

共轭分布 : 使得后验分布的函数形式与先验概率相同,从而使贝叶斯分析得到简化。

2.1. 二元变量 : 离散分布

二元变量 : 用于描述只能取两种可能值中的某一种这样的量。

Bernoulli 分布 :

二项分布 ( binomial distribution ) : 给定数据集规模 $N$,在数据集里面 $x=1$ 的观测数量为 $m$ 的概率分布为二项分布

2.2.1. Beta 分布 : Bin 分布的共轭分布

Beta 分布 :

共轭性 :「 后验概率∝先验概率×似然函数」,有着与先验概率分布相同的函数形式

$$
\begin{aligned}
p ( \mu|m,l,a,b )
&\propto\mu^{m+a-1} ( 1-\mu ) ^{l+b-1}\
&= \frac{\Gamma ( m+a+l+b ) }{\Gamma ( m+a ) \Gamma ( l+b ) } \mu^{m+a-1} ( 1-\mu ) ^{l+b-1}
\end{aligned}
$$

贝叶斯观点 : 学习过程中的顺序方法与先验和似然函数的选择无关,只取决于数据独立同分布的假设

贝叶斯推断问题推导

2.2. 多项式变量 : 离散分布

多项式变量 : 用于描述只能取 $K$ 种可能值中某一种的量。

「1-of-K」表示法 : 也称为「One-Hot 编码」。

$\text{x}$ 的分布 : $p ( \text{x}|\boldsymbol{\mu} ) =\prod_{k=1}^K \mu_k^{x_k}$ 是 Bernoulli 分布对于多个输出的推广。

有 $N$ 个独立观测值的数据集 $\mathcal{D}={\text{x}_1,\cdots,\text{x}_N}$

多项式分布 ( Multinomial Distribution ) : 给定数据集规模 $N$,在数据集里面 $x_k=1$ 的观测数量为 $m_k$ 的概率分布为

二项分布 ( binomial distribution ) : 给定数据集规模 $N$,在数据集里面 $x=1$ 的观测数量为 $m$ 的概率分布为二项分布

2.2.1. Dirichlet 分布 : 多项式分布的共轭分布

Dirichlet 分布

$$
\begin{aligned}
p ( \boldsymbol{\mu|\alpha},\mathcal{D} )
&\propto p ( \mathcal{D}|\boldsymbol{\mu} ) p ( \boldsymbol{\mu|\alpha} ) \
&\propto \text{Multi} ( m_1,m_2,\cdots,m_K|\mu,N ) \text{Dir} ( \boldsymbol{\mu|\alpha} ) \
&\propto \prod_{k=1}^K \mu_k^{m_k} \mu_k^{\alpha_k-1}\
&\propto \prod_{k=1}^K \mu_k^{\alpha_k+m_k-1} \
\end{aligned}
$$

$$
\begin{aligned}
p ( \boldsymbol{\mu|\alpha},\mathcal{D} )
&= \text{Dir} ( \boldsymbol{\mu|\alpha+m} ) \
&= \frac{\Gamma ( \sum_{k=1}^K\alpha_k +N ) }
{\Gamma ( \alpha_1+m_1 ) \cdots\Gamma ( \alpha_K+m_K ) }
\prod_{k=1}^K\mu_k^{\alpha_k+m_k-1}
\end{aligned}
$$

2.3. 高斯分布 : 连续分布

高斯分布,也称为正态分布。

一元高斯分布 :

$$
\mathcal{N} ( x|\mu,\sigma^2 )
=\frac1{\sqrt{2\pi\sigma^2}} \exp\biggl[-\frac1{2\sigma^2} ( x-\mu ) ^2\biggl]\tag{2.42}
$$

多元高斯分布 :

$$
\mathcal{N} ( \text{x}|\boldsymbol{\mu},\Sigma )
= \frac1{ ( 2\pi ) ^{D/2}}\frac1{|\Sigma|^{1/2}}
\exp\biggl[-\frac12 ( \text{x}-\boldsymbol{\mu} ) ^T\Sigma^{-1} ( \text{x}-\boldsymbol{\mu} ) \biggl ]\tag{2.43}
$$

高斯分布的性质

多元高斯分布的性质

多元高斯分布的分解

$$
I_{ij}=
\begin{cases}
1, & i=j \
0, &\text{others}
\end{cases}
$$

$$
p ( \text{y} ) =p ( \text{x} ) |J|=\prod_{j=1}^D \frac1{ ( 2\pi\lambda_j ) ^{1/2}}\exp{\frac{y_j^2}{2\lambda_j}}
$$

$$
\int p ( \text{y} ) \text{dy} = \prod_{j=1}^D \int_{-\infty}^{+\infty}\frac1{ ( 2\pi\lambda_j ) ^{1/2}}\exp{\frac{y_j^2}{2\lambda_j}} \text{dy}_j = 1
$$

$$
\mathbb{E}[\text{x}]
= \frac1{ ( 2\pi ) ^{D/2}} \frac1{|\Sigma|^{1/2}}
\int\exp\biggl{-\frac12 ( \text{x} - \boldsymbol{\mu} ) ^T \Sigma^{-1} ( \text{x}-\boldsymbol{\mu} ) \biggl } \text{x dx}
$$

$$
\mathbb{E}[\text{x}\text{x}^T]
= \frac1{ ( 2\pi ) ^{D/2}} \frac1{|\Sigma|^{1/2}}
\int\exp\biggl{-\frac12 ( \text{x} - \boldsymbol{\mu} ) ^T \Sigma^{-1} ( \text{x}-\boldsymbol{\mu} ) \biggl } \text{xx}^T\text{ dx}
$$

$$
\text{z}=\text{x}-\boldsymbol{\mu}=\sum_{j=1}^D y_j\text{u}j=\sum{j=1}^D \text{u}_j^T\text{zu}_j
$$

$$
\mathbb{E}[\text{x}]
= \frac1{ ( 2\pi ) ^{D/2}} \frac1{|\Sigma|^{1/2}}
\int\exp\biggl{-\frac12 \text{z}^T \Sigma^{-1} \text{z}\biggl}
( \text{z}+\boldsymbol{\mu} ) \text{dz}
$$

$$
\mathbb{E}[\text{x}\text{x}^T]
= \frac1{ ( 2\pi ) ^{D/2}} \frac1{|\Sigma|^{1/2}}
\int\exp\biggl{-\frac12 \text{z}^T \Sigma^{-1} \text{z}\biggl}
( \text{z}+\boldsymbol{\mu} ) ( \text{z}+\boldsymbol{\mu} ) ^T\text{dz}
$$

$$
\begin{aligned}
\frac1{ ( 2\pi ) ^{D/2}} \frac1{|\Sigma|^{1/2}} &\int\exp\biggl{-\frac12 \text{z}^T \Sigma^{-1} \text{z}\biggl}\text{zz}^T \text{dz} \
&= \frac1{ ( 2\pi ) ^{D/2}} \frac1{|\Sigma|^{1/2}}
\sum_{i=1}^D\sum_{j=1}^D \text{u}i\text{u}j^T
\int\exp\biggl{-\sum
{k=1}^D\frac{y_k^2}{2\lambda_k}\biggl}
y_i y_j \text{dy}\
&= \sum
{i=1}^D \text{u}_i\text{u}_j^T\lambda_i\
&= \Sigma
\end{aligned}
$$

$$
\mathbb{E}[x^2]=\int_{-\infty}^{+\infty} \mathcal{N} ( x|\mu,\sigma^2 ) x^2 \text{d}x = \mu^2 + \sigma^2\tag{二阶矩:1.50}
$$

$$
\mathbb{E}[\text{x}\text{x}^T] = \boldsymbol{\mu\mu}^T+\Sigma
$$

$$
\text{var [x]}=\mathbb{E}[ ( \text{x} - \mathbb{E}[\text{x}] ) ( \text{x} - \mathbb{E}[\text{x}] ) ^T]=\Sigma
$$

高斯分布的局限性

2.3.1 条件高斯分布

前提条件

求解条件概率分布

$$
\begin{aligned}

如何确定这个二次型对应的高斯分布的均值 与 方差?

前提条件

$$

$$
\begin{bmatrix}
A&B\C&D
\end{bmatrix}^{-1}=
\begin{bmatrix}
M & -M B D^{-1}\-D^{-1}C M & D^{-1}+D^{-1}C M B D^{-1}
\end{bmatrix}\tag{2.76}
$$

2.3.2 边缘高斯分布

求边缘概率分布的积分公式 ( Eq 2.83 ) :$p ( \text{x}_a ) =\int p ( \text{x}_a,\text{x}_b ) \text{ dx}_b$

从 ( Eq 2.70 ) 中选出涉及到 $\text{x}_b$ 的项得到 ( Eq 2.84 )

$$
\begin{aligned}

$$

$$
\text{m}=\Lambda_{bb}\boldsymbol{\mu}b-\Lambda{ba} ( \text{x}_a-\boldsymbol{\mu}_a )
$$

与 $\text{x}_b$ 相关的项转化为高斯分布的标准二次型 ( Eq 2.84 第一项 ) +只与 $\text{x}a$ 相关的项 ( Eq 2.84 第二项 )。取二次型项 ( Eq 2.84 第一项 ) 带入求边缘概率分布的积分公式 ( Eq 2.83 ),得
$$
\int\exp\biggl{-\frac12 ( \text{x}b - \Lambda{bb}^{-1}\text{m} ) ^T\Lambda
{bb} ( \text{x}b - \Lambda{bb}^{-1}\text{m} ) \biggl }\text{ dx}_b
$$
基于标准的多元高斯概率分布公式 ( Eq 2.43 ),再次基于「配平方法」

将 $\text{x}_b$ 积分得:

( Eq 2.84 ) 和 ( Eq 2.70 ) 中与 $\text{x}_a$ 相关的项相加,$\text{const}$ 表示与 $\text{x}a$ 无关的项
$$
\begin{aligned}
\frac12\text{m}^T\Lambda
{bb}^{-1}\text{m}
&-\frac12\text{x}a\Lambda{aa}\text{x}_a
+\text{x}a^T ( \Lambda{aa}\boldsymbol{\mu}a + \Lambda{ab}\boldsymbol{\mu}b ) + \text{const} \
&= \frac12
[\Lambda
{bb}\boldsymbol{\mu}b - \Lambda{ba} ( \text{x}a - \boldsymbol{\mu}a ) ]^T
\Lambda
{bb}^{-1}
[\Lambda
{bb}\boldsymbol{\mu}b-\Lambda{ba} ( \text{x}_a-\boldsymbol{\mu}_a ) ]\
&-\frac12\text{x}a\Lambda{aa}\text{x}_a

继续基于「配平方法」,得出边缘概率分布 $p ( \text{x}_a )$ 的参数

分块高斯的边缘分布和条件分布的总结如下

2.3.3 高斯变量的贝叶斯定理

前提条件

求解高斯联合概率分布

$$
\ln p ( \text{z} ) =\ln p ( \text{x} ) +\ln p ( \text{y} ) \=-\frac12 ( \text{x}-\boldsymbol{\mu} ) ^T\Lambda ( \text{x}-\boldsymbol{\mu} ) -\frac12 ( \text{y}-\text{Ax - b} ) ^T\text{L} ( \text{y}-\text{Ax - b} ) + const\tag{2.102}
$$

$$
\begin{aligned}
-\frac12\text{x}^T ( \Lambda+\text{A}^T\text{LA} ) \text{x}
& -\frac12\text{y}^T\text{Ly}
+\frac12\text{y}^T\text{LAx}
+\frac12\text{x}^T\text{A}^T\text{Ly}\
&=-\frac12\begin{bmatrix}\text{x}\ \text{y}\end{bmatrix}^T
\begin{bmatrix}\Lambda+\text{A}^T\text{LA} & -\text{A}^T\text{L}\ -\text{LA} & \text{L}\end{bmatrix}
\begin{bmatrix}\text{x}\ \text{y}\end{bmatrix}\
&=-\frac12\text{z}^T\text{Rz}
\end{aligned}
$$

$$
\text{x}^T\Lambda\boldsymbol{\mu}-\text{x}^T\text{A}^T\text{Lb}+\text{y}^T\text{Lb}=
\begin{bmatrix}\text{x}\ \text{y}\end{bmatrix}^T
\begin{bmatrix}\Lambda\boldsymbol{\mu}-\text{A}^T\text{Lb}\ \text{Lb}\end{bmatrix}
$$

求解边缘分布 $p ( \text{y} )$,通过对 $\text{x}$ 求积分得

求解条件分布 $p ( \text{y}|\text{x} )$

贝叶斯公式推导

2.3.4 高斯分布的最大似然估计

前提条件

使用最大似然估计分布的参数

2.3.5 最大似然的顺序估计

顺序估计:每次处理一个数据点,然后丢弃这个点,适合在线应用 和 数据集非常大的情况。

$$
\begin{aligned}
\boldsymbol{\mu}{ML}^{ ( N ) }&=\frac1N\sum{n=1}^N\text{x}_n\
&=\frac1N\text{x}N+\frac1N\sum{n=1}^{N-1}\text{x}n\
&=\frac1N\text{x}N+\frac{N-1}N\boldsymbol{\mu}{ML}^{ ( N-1 ) }\
&=\boldsymbol{\mu}
{ML}^{ ( N-1 ) }+\frac1N ( \text{x}N-\boldsymbol{\mu}{ML}^{ ( N-1 ) } )
\end{aligned}
$$
公式推导只是说明最后一次估计只与最后一个数据点 和 前一次估计有关。

Robbins-Monro 算法: ( 通用的顺序学习算法 )

前提条件

收敛公式

算法案例:最大似然问题

前提条件

$$

$$
\theta^{ ( N ) }=\theta^{ ( N-1 ) }-a_{N-1}\frac{\partial}{\partial\theta^{ ( N-1 ) }}\biggl[-\ln p ( x_N|\theta^{ ( N-1 ) } ) \biggl ]
$$

算法案例:高斯分布的顺序估计公式

前提条件

2.3.6 高斯分布的贝叶斯推断

一元高斯随机变量

方差已知,推断均值,均值的先验可以选高斯分布。

$$
p ( \mathbf{x}|\mu ) =\prod_{n=1}^N p ( x_n|\mu ) =\frac1{ ( 2\pi\sigma^2 ) ^{N/2}}\exp\biggl{-\frac1{2\sigma^2}\sum_{n=1}^N ( x_n-\mu ) ^2\biggl}
$$

均值已知,推断精度,使用精度 $\lambda$ 更易计算,精度的先验可以选 Gamma 分布。

$$
p ( \mathbf{x}|\lambda ) =\prod_{n=1}^N\mathcal{N} ( x_n|\mu,\lambda^{-1} ) \propto\lambda^{N/2}\exp\biggl{-\frac{\lambda}2 \sum_{n=1}^N ( x_n-\mu ) ^2\biggl}
$$

$$
p ( \lambda|\text{x} ) \propto p ( \mathbf{x}|\lambda ) \text{Gam} ( \lambda|a_0,b_0 ) \propto\lambda^{N/2}\lambda^{a_0-1}\exp\biggl{ -\frac{\lambda}2\sum_{n=1}^N ( x_n-\mu ) ^2-b_0\lambda\biggl}
$$

均值未知,精度未知,推断均值和方差,与均值和精度相关的先验分布可以选 Normal-Gamma 分布或 Gauss-Gamma 分布 ( Eq 2.154 )。

$$
\begin{aligned}
p ( \text{x}|\mu,\lambda )
&=\prod_{n=1}^N ( \frac{\lambda}{2\pi} ) ^{1/2}\exp\biggl{-\frac\lambda2 ( x_n-\mu ) ^2\biggl}\
&\propto\biggl[\lambda^{1/2}\exp ( -\frac{\lambda\mu^2}{2} ) \biggl]^N\exp\biggl{ \lambda\mu\sum_{n=1}^N x_n-\frac\lambda2\sum_{n=1}^N x_n^2\biggl}
\end{aligned}
$$

$$
\begin{aligned}
p ( \mu,\lambda )
&\propto[\lambda^{1/2}\exp ( -\frac{\lambda\mu^2}2 ) ]^\beta\exp{c\lambda\mu-d\lambda}\
&=\exp{-\frac{\beta\lambda}2 ( \mu-\frac{c}\beta ) ^2}\lambda^{\beta/2}\exp{- ( d-\frac{c^2}{2\beta} ) \lambda}
\end{aligned}
$$

$$
p ( \mu,\lambda ) =p ( \mu|\lambda ) p ( \mu ) =\mathcal{N} ( \mu|\mu_0, ( \beta\lambda ) ^{-1} ) \text{Gam} ( \lambda|a,b ) \tag{2.154}
$$

多元高斯随机变量

方差已知,推断均值,均值的先验可以选多元高斯分布。

均值已知,推断精度,精度的先验可以选 Wishart 分布。

均值未知,精度未知,推断均值和精度,与均值和精度相关的先验分布可以选 Normal-Wishart 分布或 Gauss-Wishart 分布。

2.3.7 学生 t 分布 ( Student’s t-distribution )

前提条件

边缘分布:对精度积分

$$
\begin{aligned}
p ( x|\mu,a,b ) &=\int_0^\infty \mathcal{N} ( x|\mu,\tau^{-1} ) \text{Gam} ( \tau|a,b ) \text{d}\tau\
&=\int_0^\infty ( \frac\tau{2\pi} ) ^{\frac12}\exp\biggl{-\tau\frac{ ( x-\mu ) ^2}2\biggl} \frac1{\Gamma ( a ) }b^a \tau^{a-1}\exp ( -b\tau ) \text{d}\tau\
&=\int_0^\infty ( \frac\tau{2\pi} ) ^{\frac12}\exp\biggl{-\tau ( b+\frac{ ( x-\mu ) ^2}2 ) \biggl} \frac1{\Gamma ( a ) }b^a \tau^{a-1} \text{d}\tau\
&=\Gamma ( a+\frac12 ) \frac{b^a}{\Gamma ( a ) } ( \frac1{2\pi} ) \biggl [b+\frac{ ( x-\mu ) ^2}2\biggl]^{ ( -a-\frac12 ) }\
\end{aligned}
$$

使用变量替换技术对指数积分 $z=\tau ( b+\frac{ ( x-\mu ) ^2}2 )$

定义新的参数:$\nu=2a,\lambda=a/b$,得到学生 t 分布

$$
\text{St} ( x|\mu,\lambda,\nu ) =\frac{\Gamma ( \frac\nu2+\frac12 ) }{\Gamma ( \frac\nu2 ) } ( \frac\lambda{\pi\nu} ) ^{1/2}
[1+\lambda\frac{ ( x-\mu ) ^2}\nu]^{-\frac\nu2-\frac12}
$$

2.3.8 周期变量

前提条件

均值求解

$$
\mathbb{E}[\theta]=\tan^{-1}\biggl{\frac{\sum_n\sin\theta_n}{\sum_n\cos\theta_n}\biggl}
$$

Von Mises 分布 : 也叫环形正态分布 ( circular normal distribution ),是高斯分布对于周期变量的推广。

一元 Von Mises 分布 $p ( \theta )$

构建过程

$$
p ( x_1,x_2 ) =\frac1{2\pi\sigma^2}\exp{-\frac{ ( x_1-\mu_1 ) ^2+ ( x_2-\mu_2 ) ^2}{2\sigma^2}}
$$

$$
\begin{aligned}
-\frac1{2\sigma^2}&{ ( r\cos\theta-r_0\cos\theta_0 ) ^2 + ( r\sin\theta-r_0\sin\theta_0 ) ^2}\
&=-\frac1{2\sigma^2}{1+r_0^2-2r_0\cos\theta\cos\theta_0-2r_0\sin\theta\sin\theta_0}\
&=\frac{r_0}{\cos ( \theta-\theta_0 ) }+\text{const}
\end{aligned}
$$

计算过程中使用的三角恒等式
$$
\cos^2A+\sin^2A=1\
\cos A\cos B + \sin A\sin B = \cos ( A-B )
$$
在单位圆 $r=1$ 上的概率分布 $p ( \theta )$,即 Von Mises 分布

$$
p ( \theta|\theta_0,m ) =\frac1{2\pi I_0 ( m ) }\exp{m \cos ( \theta-\theta_0 ) }
$$

Von Mises 分布关于参数 $\theta_0$ 和 $m$ 的最大似然估计

$$
\ln p ( \mathcal{D}|\theta_0,m ) =-N\ln ( 2\pi ) -N\ln\text{I}0 ( m ) +m\sum{n=1}^N\cos ( \theta_n-\theta_0 )
$$

$$
\theta_0^{ML}=\tan^{-1}\biggl{\frac{\sum_n\sin\theta_n}{\sum_n\cos\theta_n}\biggl}
$$

$$
A ( m_{ML} ) = ( \frac1N\sum_{n=1}^N\cos\theta_n ) \cos\theta_0^{ML} ) + ( \frac1N\sum_{n=1}^N\sin\theta_n ) \sin\theta_0^{ML} )
$$

2.3.9 混合高斯模型

混合模型 ( mixture distribution ) : 通过将基本的概率分布进行线性组合叠加形成概率模型。

一元混合高斯 ( mixture of Gaussian ) : K 个高斯概率密度的叠加形成混合高斯模型

$$
p ( \text{x} ) =\sum_{k=1}^K\pi_k\mathcal{N} ( \text{x}|\mu_k,\Sigma_k )
$$

$$
\begin{aligned}
\gamma ( \text{x} ) &\equiv p ( k|\text{x} ) \
&=\frac{p ( k ) p ( \text{x}|k ) }{\sum_l p ( l ) p ( \text{x}|l ) }\
&=\frac{\pi_k\mathcal{N} ( \text{x}|\mu_k,\Sigma_k ) }{\sum_l\pi_l\mathcal{N} ( \text{x}|\mu_l,\Sigma_l ) }
\end{aligned}
$$

多元混合高斯

$$
\ln p ( \text{X}|\boldsymbol{\pi},\boldsymbol{\mu},\Sigma )
=\sum_{n=1}^N\ln{\sum_{k=1}^K\pi_k\mathcal{N} ( \text{x}_n|\mu_k,\Sigma_k ) }
$$

2.4. 指数族分布 : 连续分布

指数族 ( exponential family ) 分布

$$
p ( \text{x}|\boldsymbol{\eta} ) =h ( \text{x} ) g ( \boldsymbol{\eta} ) \exp{\boldsymbol{\eta}^T u ( \text{x} ) }\tag{2.194}
$$

$$
g ( \boldsymbol{\eta} ) \int h ( \text{x} ) \exp{\boldsymbol{\eta}^T u ( \text{x} ) }\text{dx}=1\tag{2.195}
$$

指数族分布的实例:

$$
\begin{aligned}
p ( x|\mu )
&=\text{Bern} ( x|\mu ) =\mu^x ( 1-\mu ) ^{1-x}\
&=\exp{x\ln\mu+ ( 1-x ) \ln ( 1-\mu ) }\
&= ( 1-\mu ) \exp{\ln ( \frac\mu{1-\mu} ) x}\
&=\sigma ( -\eta ) \exp { \eta x }
\end{aligned}
$$

$$
p ( \text{x}|\boldsymbol{\mu} ) =\prod_{k=1}^M\mu_k^{x_k}=\exp ( \sum_{k=1}^M x_k\ln\mu_k )
$$

$$
\begin{aligned}
p ( \text{x}|\boldsymbol{\mu} )
&=\prod_{k=1}^M\mu_k^{x_k}=\exp ( \sum_{k=1}^M x_k\ln\mu_k ) \
&=\exp\biggl{\sum_{k=1}^{M-1}x_k\ln\mu_k+ ( 1-\sum_{k=1}^{M-1}x_k ) \ln ( 1-\sum_{k=1}^{M-1}\mu_k ) \biggl}\
&=\exp\biggl{\sum_{k=1}^{M-1}x_k\ln ( \frac{\mu_k}{1-\sum_{j=1}^{M-1}\mu_j} ) +\ln ( 1-\sum_{k=1}^{M-1}\mu_k ) \biggl}
\end{aligned}
$$

$$
\begin{aligned}
p ( x|\mu,\sigma^2 )
&=\mathcal{N} ( x|\mu,\sigma^2 ) =\frac1{ ( 2\pi\sigma^2 ) ^{1/2}}\exp{-\frac1{2\sigma^2} ( x-\mu ) ^2}\
&=\frac1{2\pi\sigma^2}\exp\biggl{-\frac1{2\sigma^2}x^2+\frac\mu{2\sigma^2}-\frac1{2\sigma^2}\mu^2\biggl}
\end{aligned}
$$

2.4.1 「最大似然」与「充分统计量」

( 最大似然 与 充分统计量 两个概念都很重要,需要真正理解,因为后面会大量出现 )

使用 最大似然估计 计算一般形式的指数族分布的参数向量 $\eta$

$$
\nabla g ( \boldsymbol{\eta} ) \int h ( \text{x} ) \exp{\boldsymbol{\eta}^T\text{u} ( \text{x} ) \text{dx} + g ( \boldsymbol{\eta} ) \int h ( \text{x} ) \exp{\boldsymbol{\eta}^T\text{u} ( \text{x} ) } \text{u} ( \text{x} ) \text{dx} = 0
$$

$$
-\frac1{g ( \boldsymbol{\eta} ) }\nabla g ( \boldsymbol{\eta} ) = g ( \boldsymbol{\eta} ) \int h ( \text{x} ) \exp{\boldsymbol{\eta}^T\text{u} ( \text{x} ) } \text{u} ( \text{x} ) \text{dx} = \mathbb{E}[\text{u} ( \text{x} ) ]
$$

$$
\mathbb{E}[\text{u} ( \text{x} ) ] = -\frac1{g ( \boldsymbol{\eta} ) }\nabla g ( \boldsymbol{\eta} ) \tag{2.226}
$$

实例:一组独立同分布的数据$\text{X}={\text{x}_1,\cdots,\text{x}_N}$

$$
p ( \text{X}|\boldsymbol{\eta} ) =\biggl ( \prod_{n=1}^N h ( \text{x}n ) \biggl ) g ( \boldsymbol{\eta} ) \exp\biggl{\boldsymbol{\eta}^T\sum{n=1}^N\text{u} ( \text{x}_n ) \biggl}
$$

$$
-\nabla\ln g ( \boldsymbol{\eta}{ML} ) =\frac1N\sum{n=1}^N\text{u} ( \text{x}_n ) \tag{2.228}
$$

2.4.2 共轭先验

对于给定的概率分布,寻找一个先验使其与似然函数共轭,从而后验分布的函数形式与先验分布相同。

$$
p ( \boldsymbol{\eta}|\chi,\nu )
=f ( \chi,\nu ) g ( \boldsymbol{\eta} ) ^{\nu}\exp{\nu\boldsymbol{\eta}^T\chi}
$$

$$
p ( \boldsymbol{\eta}|\text{X},\chi,\nu )
\propto g ( \boldsymbol{\eta} ) ^{\nu+N} \exp\biggl{\boldsymbol{\eta}^T \biggl ( \sum_{n=1}^N\text{u} ( \text{x}_n ) +\nu\chi\biggl ) \biggl}
$$

2.4.3 无信息先验 ( non-informative prior )

当没有先验知识时,选择「先信息先验」能够对后验分布产生尽可能小的影响。

当先验分布 $p ( \lambda ) =\text{const}$ 时存在的问题

先验分布的两个例子

2.5. 非参数化密度估计

( 不是本书重点,作者描述较少,可参考 [^Andrew,2004] Ch 03 和 [^Duda,2003] Ch 04 )

2.5.1 核密度估计

密度估计的通用形式

$$
\text{Bin} ( K|N,P ) =\frac{N!}{K! ( N-K ) !}P^K ( 1-P ) ^{N-K}
$$

$$
p ( \text{x} ) =\frac{K}{NV}\tag{2.246}
$$

密度估计的核密度方法

$$
k ( \text{u} ) =\begin{cases}
1&|u_i|\leq 1/2,i=1,\cdots,D,\
0&\text{others}
\end{cases}
$$

$$
p ( \text{x} ) =\frac{K}{NV}
=\sum_{n=1}^N k ( \frac{\text{x}-\text{x}_n}{h} ) \frac1N\frac1{h^D}
$$

$$
p ( \text{x} ) =\frac{K}{NV}
=\sum_{n=1}^N\exp{-\frac{|\text{x}-\text{x}_n|^2}{2h^2}}\frac1N\frac1{ ( 2\pi h^2 ) ^{D/2}}
$$

2.5.2 密度估计的 K 近邻方法

K 近邻方法在分类问题中的应用

02. 小结

这章看起来是基础知识的介绍,实际上是对后面知识的梳理。如果这章看完有太多不理解的内容,再次建议先补充概率与统计的基础,否则就无法通过贝叶斯角度来理解机器学习。