机器学习基础
机器学习的基础之一便是概率。机器学习(统计学习)在《统计学习方法》(李航)一书中描述为:基于数据构建概率统计模型,并运用模型对数据进行预测和分析的方法。对于概率的诠释有两大学派,一类是频率派,另一类是贝叶斯派。
符号约定:数据集(观测集)采用记号
这个记号表示有 个样本,每个样本都是 维向量。其中,每个样本(观测)都是由 生成的: 。
1 频率派
频率派认为我们应该从样本去推测数据分布的参数(把数据看成概率模型):模型的参数
极大似然估计MLE:似然(概率)函数取到最大值时的参数值。也就是说,利用已知的样本,找到最有可能(最大概率/似然)导致这样的样本的参数值(模型已知,参数未知)。
频率派的观点导出了一系列的统计机器学习算法。实际上统计机器学习是一类优化问题,因为第一步是设计模型(概率模型或判定模型),第二步是找出loss function,第三步就是利用梯度下降法等算法进行优化。在应用频率派的最大似然估计(MLE)方法时,最优化理论占有重要的地位。
2 贝叶斯派
贝叶斯派认为模型的参数
其中,
先验概率:根据以往的经验和分析,在实验前或者采样前就可以得到的概率;后验概率:某件事情已经发生,想要计算这件事情发生的原因是由某个因素引起的概率。 所以,先验概率就是事先可估计的概率分布,而后验概率是“由因溯果”的思想——由结果推断导致这件事发生的某个原因的概率。
为了求
最后一个等号成立是因为最大化后验概率时,因为
求解到上面式子中的模型参数
贝叶斯派的观点导出了概率图模型。贝叶斯派的算法无论是后验概率的建模还是应用这个后验概率进行推断时,积分占有重要地位,常见的积分方法包括采样积分方法例如MCMC等。