第三方平台广告营销是什么_韶关最新消息_百度竞价点击软件_肇庆网站建设

贝叶斯学习

一般情形下的贝叶斯估计（总结）

基本假设：

密度 $p(\mathbf{x}\vert \theta)$ 的形式已知，但参数向量的值未知。
关于 $\theta$ 的初始知识包含在已知的先验密度 $p(\theta)$ 中。
关于 $\theta$ 的其余知识包含在根据未知概率密度 $p(\mathbf{x})$ 独立抽取的 $n$ 个样本 $x_{1},x_{2},\cdots,x_{n}$ 的集合 $D$ 中。
基本问题：计算关于参数 $\theta$ 的后验密度 $p(\theta\vert D)$ 和关于数据的后验密度 $p(\mathbf{x}\vert D)$ 。
$p(\theta\vert D)=\frac{p(D\vert \theta)p(\theta)}{\int p(D\vert \theta)p(\theta)d\theta},\quad p(D\vert \theta)=P(x_{1},x_{2},\cdots,x_{n}\vert \theta)=\prod_{i = 1}^{n}p(x_{i}\vert \theta)\\ p(\mathbf{x}\vert D)=\int_{\theta}p(\mathbf{x}\vert \theta)p(\theta\vert D)d\theta$

**遇到的困难: **

除了一些特殊的分布（共轭分布）之外，对于一般情形，积分很难计算：
$p(\theta\vert D)=\frac{p(D\vert \theta)p(\theta)}{\int p(D\vert \theta)p(\theta)d\theta},\quad p(\mathbf{x}\vert \theta)=\int_{\theta}p(\mathbf{x}\vert \theta)p(\theta\vert D)d\theta$
参数先验 $p(\theta)$ 怎么选取？对结果有何影响？

p(θ) 的选择对结果有直接影响。先验分布过于强烈可能会导致数据驱动的结果被先验主导，而过于弱的先验分布可能导致计算结果不稳定。
给定 $D$ ，我们真的能通过 $p(\mathbf{x}\vert D)$ 将 $p(\mathbf{x})$ 估计得很好吗？或者说，随着 $D$ 中样本的增多， $p(\mathbf{x}\vert D)$ 收敛于 $p(\mathbf{x})$ 吗？

根据贝叶斯学习的性质，当数据量 $\to \infty$ 时，后验分布 $p(\theta\vert D)$ 会集中在最大似然估计值附近，即： $p(\theta\vert D) \to \delta(\theta-\theta_{\text{MLE}})$ 这意味着后验分布的方差会逐渐缩小，预测分布 p(\mathbf{x}∣D)p(\mathbf{x}\vert D) 也会趋近于真实分布。

**贝叶斯学习的迭代计算公式: **

记 $D^{n}=\{x_{1},x_{2},\cdots,x_{n}\}$ ，由于样本是独立选样，则：
$p(D^{n}\vert \theta)=p(x_{n}\vert \theta)p(D^{n - 1}\vert \theta)=p(x_{n}\vert \theta)p(x_{n - 1}\vert \theta)p(D^{n - 2}\vert \theta)=\cdots$
于是有如下迭代公式：
$\begin{align} p(\theta|D^{n})&=\frac{p(D^{n}|\theta)p(\theta)}{\int p(D^{n}|\theta)p(\theta)d\theta}=\frac{p(x_{n}|\theta)p(D^{n - 1}|\theta)p(\theta)}{\int p(x_{n}|\theta)p(D^{n - 1}|\theta)p(\theta)d\theta} \\ &=\frac{p(x_{n}|\theta)}{\int p(x_{n}|\theta)\frac{p(D^{n - 1}|\theta)p(\theta)}{\int p(D^{n - 1}|\theta)p(\theta)d\theta}d\theta}=\frac{p(x_{n}|\theta)}{\int p(x_{n}|\theta)p(\theta|D^{n - 1})d\theta} \\ &=\frac{p(x_{n}|\theta)p(\theta|D^{n - 1})}{\int p(x_{n}|\theta)p(\theta|D^{n - 1})d\theta} \\ p(\theta|D^{n - 1})&=\frac{p(D^{n - 1}|\theta)p(\theta)}{\int p(D^{n - 1}|\theta)p(\theta)d\theta} \end{align}$

为统一表示，记参数先验分布 $p(\theta)$ 为 $p(\theta\vert D^{0})$ ，表示没有样本情形下的参数概率密度估计。

记 $D^{n}=\{x_{1},x_{2},\cdots,x_{n}\}$ ，随着样本的增加，可以得到一系列对参数概率密度函数的估计：
$p(\theta),p(\theta\vert x_{1}),p(\theta\vert x_{1},x_{2}),\cdots,p(\theta\vert x_{1},x_{2},\cdots,x_{n}),\cdots$
一般来说，随着样本数目的增加，上述序列函数逐渐尖锐，逐步趋向于以 $\theta$ 的真实值为中心的一个尖峰。当样本无穷多时，此时将收敛于一个脉冲函数（参数真值）.

例：贝叶斯估计

假设一维随机变量 $X$ 服从 $[0,\theta]$ 上的均匀分布：
$p(\mathbf{x}\vert \theta)=U(0,\theta)=\begin{cases} \frac 1 \theta, & 0\leq \mathbf{x}\leq\theta\\ 0, & \text{otherwise} \end{cases}$
基于先验知识，我们知道 $\theta < 10$ ，并希望利用迭代的贝叶斯方法从样本 ${4,7,2,8\}$ 中估计参数 $\theta$ 。

迭代过程

在任何数据到达之前，我们有 $p(\theta\vert D^{0}) = p(\theta)=U(0,10)$ 。

当第一个数据点 $x_{1}=4$ 到达时，则：
$p(\theta\vert D^{1})=\frac{p(x_{1}\vert \theta)p(\theta\vert D^{0})}{\int p(x_{1}\vert \theta)p(\theta\vert D^{0})d\theta}=\alpha p(x_{1}\vert \theta)p(\theta\vert D^{0})=\alpha\frac{1}{\theta}\frac{1}{10}\\ p(\theta\vert D^{1})\propto\begin{cases} 1/\theta, & 4\leq\theta\leq10\\ 0, & \text{otherwise} \end{cases}$
其中忽略了归一化。因为 $\theta$ 一定要大于等于观测值 $\mathbf x$ 。

当第二个数据点 $x_{2}=7$ 到达时，我们有：
$p(\theta\vert D^{2})\propto p(x_{2}\vert \theta)p(\theta\vert D^{1})=\frac{1}{\theta^{2}},\quad p(\theta\vert D^{2})\propto\begin{cases} 1/\theta^{2}, & 7\leq\theta\leq10\\ 0, & \text{otherwise} \end{cases}$
当第三个数据点 $x_{3}=2$ 到达时，我们有：
$p(\theta\vert D^{3})\propto p(x_{3}\vert \theta)p(\theta\vert D^{2})=\frac{1}{\theta^{3}},\quad p(\theta\vert D^{3})\propto\begin{cases} 1/\theta^{3}, & 7\leq\theta\leq10\\ 0, & \text{otherwise} \end{cases}$
当第四个数据点 $x_{4}=8$ 到达时，我们有：
$p(\theta\vert D^{4})\propto p(x_{4}\vert \theta)p(\theta\vert D^{3})=\frac{1}{\theta^{4}},\quad p(\theta\vert D^{4})\propto\begin{cases} 1/\theta^{4}, & 8\leq\theta\leq10\\ 0, & \text{otherwise} \end{cases}$
当数据点 $x_{n}$ 到达时，我们有：
$p(\theta\vert D^{n})\propto p(x_{n}\vert \theta)p(\theta\vert D^{n - 1})=\frac{1}{\theta^{n}},\quad p(\theta\vert D^{n})\propto\begin{cases} 1/\theta^{n}, & \max\{D^{n}\}\leq\theta\leq10\\ 0, & \text{otherwise} \end{cases}$

关于参数 $\theta$ 的分布的调整过程：

参数 $\theta$ 的最后估计结果：

$p(\theta\vert D^{4})=\begin{cases} 3147.5/\theta^{4}, & 8\leq\theta\leq10\\ 0, & \text{otherwise} \end{cases}$
最后的分布：
$p(\mathbf{x}\vert D)=\int_{\theta}p(\mathbf{x}\vert \theta)p(\theta\vert D)d\theta\\ p(\mathbf{x}\vert D)=\begin{cases} 0.1134, & 0\leq \mathbf{x}\leq8\\ 786.875\left(\frac{1}{\mathbf{x}^{4}}-\frac{1}{10^{4}}\right), & 8 < \mathbf{x}\leq10\\ 0, & \text{otherwise} \end{cases}$

最大似然估计做法

对于数据，其似然函数为：
$l(\theta)=p(x_{1},x_{2},x_{3},x_{4}\vert \theta)=\frac{1}{\theta^{4}}$
显然， $l(\theta)$ 单调递减， $\theta$ 越小， $l(\theta)$ 越大。但同时， $\theta$ 一定要大于等于最大观测数据。在现有样本 ${4,7,2,8\}$ 中，使似然函数 $l(\theta)$ 取值最大的 $\theta$ 只能等于8。所以由于是均匀分布，所以 $\theta$ 的最大似然估计值为8。

样本的后验分布

图中展示了最大似然估计（ML）和贝叶斯估计（Bayes）在样本后验分布上的区别。文中提到最大似然方法估计的是 $\theta$ 空间中的一个点，而贝叶斯方法估计的是一个分布。