mapreduce 贝叶斯

以下是我个人的理解：

首先说明一下，机器学习中参数估计方法最基本的就是极大似然估计。极大似然估计结果完全依赖于给定的样本数据，它视待估参数为一个未知但固定的量，从而不考虑先验知识的影响。因此如果样本数据不能很好反映模型的情况，那么得到的参数估计结果就会有较大偏差。

举个简单的例子，我们都知道抛一枚普通硬币，出现正面反面的概率各为1/2。如果现在正面出现9次，反面出现1次，那么用极大似然估计得到的概率就是P(正面)=9/10，P(反面)=1/10，显然是有偏差的。为了减小这个偏差，于是我们就采用贝叶斯估计方法。

回忆一下贝叶斯公式，它是用来计算后验概率的，也就是已知结果求其导致原因的概率。该公式的结果取决于两方面：似然估计和先验概率。正是如此，我们最终的估计结果才更加客观合理地反映模型的参数。

一般地，假设先验概率为P(θ)，似然函数为L(θ|X)=P(X|θ)，X为样本集合，我们将贝叶斯公式简单表示为P(θ|X)∝P(θ)L(θ|X)，这便是θ的贝叶斯估计。