机器学习基础

机器学习的基础之一便是概率。机器学习(统计学习)在《统计学习方法》(李航)一书中描述为：基于数据构建概率统计模型，并运用模型对数据进行预测和分析的方法。对于概率的诠释有两大学派，一类是频率派，另一类是贝叶斯派。

符号约定：数据集(观测集)采用记号 $X_{N \times p} = (x_{1}, x_{2}, \dots, x_{N})^{T}, x_{i} = (x_{i 1}, x_{i 2}, \dots, x_{i p})^{T}$ 这个记号表示有 $N$ 个样本，每个样本都是 $p$ 维向量。其中，每个样本(观测)都是由 $p (x | θ)$ 生成的： $x p (x | θ)$ 。

1 频率派

频率派认为我们应该从样本去推测数据分布的参数(把数据看成概率模型)：模型的参数 $θ$ 是未知的常量， $x$ 是随机变量。对于 $N$ 个样本(观测)来说，样本集(观测集)的概率为 $p (X | θ) \underset{i i d}{=} \prod {i = 1}^{N} p (x i | θ))$ 。为了求出模型参数 $θ$ 的值，采用极大似然估计MLE(Maximum Likelihood Evaluation)来计算： $θ_{M L E} = \underset{θ}{a r g m a x} \log p (X | θ) \underset{i i d}{=} \underset{θ}{a r g m a x} \sum {i = 1}^{N} \log p (x i | θ)$

极大似然估计MLE:似然(概率)函数取到最大值时的参数值。也就是说，利用已知的样本，找到最有可能(最大概率/似然)导致这样的样本的参数值(模型已知，参数未知)。

频率派的观点导出了一系列的统计机器学习算法。实际上统计机器学习是一类优化问题，因为第一步是设计模型(概率模型或判定模型)，第二步是找出loss function，第三步就是利用梯度下降法等算法进行优化。在应用频率派的最大似然估计(MLE)方法时，最优化理论占有重要的地位。

2 贝叶斯派

贝叶斯派认为模型的参数 $θ$ 是随机变量而不是一个常量，服从一个先验概率分布，即 $θ \sim p (θ)$ 。所以，根据贝叶斯定理可以写出： $p (θ | X) = \frac{p (X | θ) \cdot p (θ)}{p (X)} = \frac{p (X | θ) \cdot p (θ)}{\int_{θ} p (X | θ) \cdot p (θ) d θ}$

其中， $p (θ | X)$ 是后验概率， $p (X | θ)$ 是似然， $p (θ)$ 是先验概率。

先验概率：根据以往的经验和分析，在实验前或者采样前就可以得到的概率；后验概率：某件事情已经发生，想要计算这件事情发生的原因是由某个因素引起的概率。所以，先验概率就是事先可估计的概率分布，而后验概率是“由因溯果”的思想——由结果推断导致这件事发生的某个原因的概率。

为了求 $θ$ 的值，可以利用MAP(最大后验概率)来求： $θ_{M A P} = \underset{θ}{a r g m a x} p (θ | X) = \underset{θ}{a r g m a x} \frac{p (X | θ) \cdot p (θ)}{p (X)} = \underset{θ}{a r g m a x} p (X | θ) \cdot p (θ)$

最后一个等号成立是因为最大化后验概率时，因为 $p (X)$ 是常数不影响最优结果，所以可以省去。所以，MAP并不是标准的贝叶斯估计，标准的贝叶斯估计是上面这个式子的第一个等号部分，没有进行省略，关键在于计算了积分。

求解到上面式子中的模型参数 $θ_{M A P}$ 后，通过计算 $\frac{p (X | θ) \cdot p (θ)}{\int_{θ} p (X | θ) \cdot p (θ) d θ} = p (θ | X)$ ，就得到了参数的后验概率。其中， $p (X | θ)$ 叫做似然，是模型的分布。最后，在得到了参数的后验概率分布 $p (θ | X)$ 后，我们便可以做出贝叶斯预测： $p (x n e w | X) = \int θ p (x n e w | θ) \cdot p (θ | X) d θ$

$θ$ 是 $x_{n e w}$ 和 $X$ 之间的桥梁。

贝叶斯派的观点导出了概率图模型。贝叶斯派的算法无论是后验概率的建模还是应用这个后验概率进行推断时，积分占有重要地位，常见的积分方法包括采样积分方法例如MCMC等。

参考

机器学习——白板推导

MachineLearningNotes

机器学习基础

1 频率派

2 贝叶斯派

参考

微信扫一扫：分享