变分贝叶斯推导

变分贝叶斯方法最早由 Matthew J.Beal 在他的博士论文《Variational Algorithms for Approximate Bayesian Inference 》中提出,作者将其应用于隐马尔科夫模型,混合因子分析,非线性动力学,图模型等。变分贝叶斯是一类用于贝叶斯估计和机器学习领域中近似计算复杂(intractable )积分的技术。它主要应用于复杂的统计模型中,这种模型一般包括三类变量:观测变量 (observed variables, data),未知参数(parameters )和潜变量(latent variables )。在贝叶斯推断中,参数和潜变量统称为不可观测变量 (unobserved variables)。变分贝叶斯方法主要是两个目的 :

  • 近似不可观测变量的后验概率,以便通过这些变量作出统计推断。

  • 对一个特定的模型,给出观测变量的边缘似然函数(或称为证据,evidence )的下界。主要用于模型的选择,认为模型的边缘似然值越高,则模型对数据拟合程度越好,该模型产生 Data 的概率也越高。

对于第一个目的,蒙特卡洛模拟,特别是用 Gibbs 取样的 MCMC 方法,可以近似计算复杂的后验分布,能很好地应用到贝叶斯统计推断。此方法通过大量的样本估计真实的后验,因而近似结果带有一定的随机性。与此不同的是,变分贝叶斯方法提供一种局部最优,但具有确定解的近似后验方法。从某种角度看,变分贝叶斯可以看做是 EM 算法的扩展,因为它也是采用极大后验估计 (MAP),即用单个最有可能的参数值来代替完全贝叶斯估计。另外,变分贝叶斯也通过一组相互依然(mutually dependent )的等式进行不断的迭代来获得最优解。