Beta分布与最大后验估计(MAP)

Beta分布

  • 二次分布:抛n次硬币出现k次正面的概率

P(S=k)=Cnkpk(1p)nkP(S=k)=C_n^kp^k(1-p)^{n-k}

  • 几何分布:抛第t次时,该次为第一次出现正面的概率

P(T=t)=(1p)t1pP(T=t)=(1-p)^{t-1}p

  • 帕斯卡分布:抛第t次时,第k次出现正面

P(Yk=t)=Ct1k1pk1(1p)tkpP(Y_k=t)=C_{t-1}^{k-1}p^{k-1}(1-p)^{t-k}p

可以发现以上可以用一个统一分布来描述

B(xα,β)=1B(α,β)xα1(1x)β1B(x|\alpha,\beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}

a,b为形状参数
B为归一化函数

理解1

首先抛开B。看看简单的变体f(xα,β)=xα(1x)βf(x|\alpha,\beta)=x^\alpha(1-x)^\beta
对于贝叶斯主义者,不应该使用频率主义,要把概率当做随机变量。
如抛出7次正面,3次反面。概率分布是关于X的函数.

f(x7,3)=x7(1x)3f(x|7,3)=x^7(1-x)^3
该函数在0.7处取得最大值,说明极有可能正面概率是0.7

几种特殊分布
1.a=b=1时为均匀分布,a=b时

用于贝叶斯推断
在推断中,我们往往在意模型的参数,对于贝叶斯主义来说,这些参数不是一个确定的值,而是服从某个分布。记参数为[随机变量]θ\theta

现在我们有了一个观察X=(X1,X2,....,Xn)X=(X_1,X_2,....,X_n)
这些观察可以看做是在θ\theta下的条件分布
于是现在该有的东西都有了,我们可以利用贝叶斯求出在x下\theta的概率 (后验概率,通过观察而得到的)
Alt text

共轭先验(Conjugate prior):
Alt text
Alt text
Alt text
Alt text
Alt text

Beta分布下的MAP(最大后验估计)

考虑最大后验公式

argmaxθlog(Dθ)+logp(θ)argmax_\theta \quad log(D|\theta)+log p(\theta)

其中θ\theta 服从Beta分布 (要运用贝叶斯的观点,参数不是一个定值,也是服从某个概率分布的)

Beta(θ;a,b)=Γ(a+b)Γ(a)Γ(b)θa1(1θ)b1Beta(\theta;a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1}

于是,有

logp(θ)=C+(a1)logθ+(b1)log(1θ)\log p(\theta)=C+(a-1)log \theta+(b-1)log(1-\theta)

最左边的是进行概率归一化用,是一个常数。因此取对数得到C

接下来 $$log p(D|\theta)=log L(\theta)$$
与似然函数相同,又L(θ)=θxn(1θ)1xnL(\theta)=\prod\theta^{x_n}(1-\theta)^{1-x_n}
这里假设X服从的是伯努利分布 x_n=1 或 0

logL(θ)=i=1nxilogθ+(1xi)log(1θ)log L(\theta)=\sum_{i=1}^nx_ilog\theta+(1-x_i)log(1-\theta)

于是有

log(Dθ)+logp(θ)=((n=1Nxn+a1)logθ)+((n=1N(1xn)+b1)log(1θ))+C\quad log(D|\theta)+log p(\theta)=\\((\sum_{n=1}^Nx_n+a-1)log \theta)+((\sum_{n=1}^N(1-x_n)+b-1)log (1-\theta))+C

Donate
  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.

请我喝杯咖啡吧~

支付宝
微信