多项分布

Bernoulli Distribution | 伯努利分布

伯努利分布是关于布尔变量 $x \in {0,1}$ 的概率分布,其连续参数 $\phi \in [0,1]$ 表示变量 $x=1$ 的概率。

P(xϕ)=Bern(xϕ)=ϕx(1x)(1x)E[x]=ϕVar[x]=ϕ(1ϕ)P(x|\phi)=Bern(x|\phi)=\phi^x(1-x)^{(1-x)} \\ E[x] = \phi \\ Var[x] = \phi(1-\phi)

Binomial Distribution | 二项分布

二项分布用以描述 $n$ 次独立的伯努利实验中有 $x$ 次成功的概率,其中每次伯努利实验成功的概率为 $\phi \in [0,1]$:

p(X=x)=n!x!(nx)!ϕx(1ϕ)nx,x{0,1,,n}p(X=x)=\frac{n !}{x !(n-x) !} \phi^{x}(1-\phi)^{n-x}, x \in\{0,1, \cdots, n\}

当 $n=1$ 时,二项分布退化为伯努利分布。二项分布的典型例子是扔硬币,硬币正面朝上概率为 $p$, 重复扔 $n$ 次硬币,$k$ 次为正面的概率即为一个二项分布概率。

二项分布的期望 $\mathbb{E}[X]=n \phi$,方差则是 $\operatorname{Var}[X]=n \phi(1-\phi)$。

Categorical/Multinomial Distribution | 多项分布

比如扔骰子,不同于扔硬币,骰子有 6 个面对应 6 个不同的点数,这样单次每个点数朝上的概率都是 $1/6$,即对应 p1~p6,它们的值不一定都是 1/6,只要和为 1 且互斥即可,比如一个形状不规则的骰子;重复扔 n 次,如果问有 $x$ 次都是点数 6 朝上的概率就是:

P=C(n,x)px(1p)nxP = C(n,x)p^x(1-p)^{n-x}

严格定义来说,将伯努利分布由单变量扩展到 $d$ 维向量 $x$,其中 $xi \in {0,1}$,且$\sum{i=1}^{d} xi = 1$,并假设 $x_i$取 1 的概率为 $\mu_i \in [0,1],\sum{i=1}^d \mu_i = 1$,则将得到离散概率分布为:

P(xμ)=i=1dμixiE[xi]=μiVar[xi]=μi(1μi)Cov[xj,xi]=[j=i]μiP(x|\mu) = \prod_{i=1}^d \mu_i^{x_i} \\ E[x_i] = \mu_i \\ Var[x_i] = \mu_i(1 - \mu_i) \\ Cov[x_j,x_i] = \prod[j=i] \mu_i

在此基础上扩展二项分布则得到多项分布,它描述了在 $N$ 次独立实验中有 $m_i$ 次 $x_i = 1$ 的概率:

P(m1,m2,...,mdN,μ)=Mult(m1,m2,...,mdN,μ)=N!m1!m2!...md!i=1dμimiE[mi]=NμiVar[mi]=Nμi(1μi)Cov[mj,mi]=NμjμiP(m_1,m_2,...,m_d|N,\mu)=Mult(m_1,m_2,...,m_d | N,\mu) \\ = \frac{N!}{m_1!m_2!...m_d!}\prod_{i=1}^d \mu_i^{m_i} \\ E[m_i] = N_{\mu_i} \\ Var[m_i] = N_{\mu_i}(1-\mu_i) \\ Cov[m_j,m_i] = -N_{\mu_j \mu_i}

狄里克雷分布

多项式分布的质量密度函数:

Mult(m1,m2,,mK;μ,N)=N!m1!m2!mK!k=1Kμkmk\operatorname{Mult}\left(m_{1}, m_{2}, \cdots, m_{K} ; \vec{\mu}, N\right)=\frac{N !}{m_{1} ! m_{2} ! \cdots m_{K} !} \prod_{k=1}^{K} \mu_{k}^{m_{k}}

它是 $\left(\mu{1}+\mu{2}+\cdots+\mu{K}\right)^{m{1}+m{2}+\cdots+m{K}}$ 的多项式展开的形式。

狄利克雷分布的概率密度函数:

Dir(μ;α)=Γ(k=1Kαk)k=1KΓ(αk)k=1Kμkαk1\operatorname{Dir}(\vec{\mu} ; \vec{\alpha})=\frac{\Gamma\left(\sum_{k=1}^{K} \alpha_{k}\right)}{\sum_{k=1}^{K} \Gamma\left(\alpha_{k}\right)} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1}

可以看到,多项式分布与狄里克雷分布的概率密度函数非常相似,区别仅仅在于前面的归一化项:

  • 多项式分布是针对离散型随机变量,通过求和获取概率。

  • 狄里克雷分布时针对连续型随机变量,通过求积分来获取概率。