文章目录
- 相关教程
- 相关文献
- 常用分布的数学期望&方差&特征函数
- 定义
- 事件域
- 概率
- 条件概率
- 随机变量
- 分布函数
- 连续随机变量的概率密度函数
- 数学期望
- 离散随机变量
- 连续随机变量
- 方差与标准差
- 最大似然估计
- 特征函数
- 不等式
- Chebyshev(切比雪夫)不等式
作者:小猪快跑
基础数学&计算数学,从事优化领域7年+,主要研究方向:MIP求解器、整数规划、随机规划、智能优化算法
常用离散分布(二项分布、泊松分布、超几何分布、几何分布与负二项分布)与连续分布(正态分布、均匀分布、指数分布、伽马分布、贝塔分布、t分布、F分布、拉普拉斯分布、卡方分布、韦伯分布)的数学期望、方差、特征函数
如有错误,欢迎指正。如有更好的算法,也欢迎交流!!!——@小猪快跑
相关教程
- 常用分布的数学期望、方差、特征函数
- 【推导过程】常用离散分布的数学期望、方差、特征函数
- 【推导过程】常用连续分布的数学期望、方差、特征函数
- 【机器学习】【通俗版】EM算法(待更新)
相关文献
- [1]茆诗松,周纪芗.概率论与数理统计 (第二版)[M].中国统计出版社,2000.
常用分布的数学期望&方差&特征函数
分布名称 | 概率分布或密度函数 p ( x ) p(x) p(x) | 数学期望 | 方差 | 特征函数 |
---|---|---|---|---|
单点分布 | p c = 1 \begin{array}{c}{p_{c}=1}\end{array} pc=1 ( c c c 为常数) | c c c | 0 0 0 | e i c t e^{ict} eict |
0 − 1 0-1 0−1分布 | p 0 = 1 − p , p 1 = p ( 0 < p < 1 ) \begin{array}{c} p_{0}=1-p,p_{1}=p\\ (0<p<1)\end{array} p0=1−p,p1=p(0<p<1) | p p p | p ( 1 − p ) p(1-p) p(1−p) | 1 − p + p e i t 1-p+pe^{it} 1−p+peit |
二项分布 b ( n , p ) b(n,p) b(n,p) | p k = ( n k ) p k ( 1 − p ) n − k k = 0 , 1 , 2 , ⋯ , n ( 0 < p < 1 ) p_{k}=\binom{n}{k}p^{k}(1-p)^{n-k}\\k=0,1,2,\cdots,n\\(0<p<1) pk=(kn)pk(1−p)n−kk=0,1,2,⋯,n(0<p<1) | n p np np | n p ( 1 − p ) np(1-p) np(1−p) | ( 1 − p + p e i t ) n (1-p+pe^{it})^{n} (1−p+peit)n |
泊松分布 P ( λ ) P(\lambda) P(λ) | p k = λ k k ! e − k k = 0 , 1 , 2 , ⋯ ; ( λ > 0 ) p_{k}=\frac{\lambda^{k}}{k!}e^{-k}\\k=0,1,2,\cdots;(\lambda>0) pk=k!λke−kk=0,1,2,⋯;(λ>0) | λ \lambda λ | λ \lambda λ | e λ ( e i t − 1 ) e^{\lambda(e^{it}-1)} eλ(eit−1) |
超几何分布 h ( n , N , M ) h(n,N,M) h(n,N,M) | p k = ( M k ) ( N − M n − k ) ( N n ) M ⩽ N , n ⩽ N , M , N , n 正整数, k = 0 , 1 , 2 , ⋯ , min ( M , N ) p_{k}=\frac{\displaystyle\binom{M}{k}\binom{N-M}{n-k}}{\displaystyle\binom{N}{n}}\\M\leqslant N,n\leqslant N,M,N,n\text{ 正整数,}\\k=0,1,2,\cdots,\min(M,N) pk=(nN)(kM)(n−kN−M)M⩽N,n⩽N,M,N,n 正整数,k=0,1,2,⋯,min(M,N) | n M N n\displaystyle\frac MN nNM | n M N ( 1 − M N ) N − n N − 1 \displaystyle\frac{nM}N(1-\frac MN)\frac{N-n}{N-1} NnM(1−NM)N−1N−n | ∑ k = 0 n ( M k ) ( N − M n − k ) ( N n ) e i t k \displaystyle\sum_{k=0}^n\frac{\displaystyle\binom Mk\binom{N-M}{n-k}}{\displaystyle\binom Nn}e^{itk} k=0∑n(nN)(kM)(n−kN−M)eitk |
几何分布 G e ( p ) Ge(p) Ge(p) | p k = ( 1 − p ) k − 1 p k = 1 , 2 , ⋯ ( 0 < p < 1 ) p_{k}=(1-p)^{k-1}p\\k=1,2,\cdots\\(0<p<1) pk=(1−p)k−1pk=1,2,⋯(0<p<1) | 1 p \displaystyle\frac1p p1 | 1 − p p 2 \displaystyle\frac{1-p}{p^2} p21−p | p e i t 1 − ( 1 − p ) e i t \displaystyle\frac{pe^{it}}{1-(1-p)e^{it}} 1−(1−p)eitpeit |
负二项分布 帕斯卡分布 N b ( r , p ) Nb(r,p) Nb(r,p) | p k = ( k − 1 r − 1 ) ( 1 − p ) k − r p r r 正整数 , k = r , r + 1 , ⋯ ( 0 < p < 1 ) \begin{gathered}p_{k}={\binom{k-1}{r-1}}(1-p)^{k-r}p^{r} \\r正整数,k=r,r+1,\cdots \\(0<p<1) \end{gathered} pk=(r−1k−1)(1−p)k−rprr正整数,k=r,r+1,⋯(0<p<1) | r p \displaystyle\frac rp pr | r ( 1 − p ) p 2 \displaystyle\frac{r(1-p)}{p^2} p2r(1−p) | ( p e i t 1 − ( 1 − p ) e i t ) r \left(\displaystyle\frac{pe^{it}}{1-(1-p)e^{it}}\right)^r (1−(1−p)eitpeit)r |
正态分布 高斯分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) | p ( x ) = 1 2 π σ e − ( x − a ) 2 2 σ 2 − ∞ < x < + ∞ ( σ > 0 , a 常数 ) p(x)=\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{(x-a)^{2}}{2\sigma^{2}}}\\-\infty<x<+\infty\\(\sigma>0,a\text{常数}) p(x)=2πσ1e−2σ2(x−a)2−∞<x<+∞(σ>0,a常数) | μ \mu μ | σ 2 \sigma^2 σ2 | e i a t − 1 2 σ 2 t 2 e^{iat-\frac{1}{2}\sigma^{2}t^{2}} eiat−21σ2t2 |
均匀分布 U ( a , b ) U(a,b) U(a,b) | p ( x ) = { 1 b − a , x ∈ ( a , b ) 0 , 其他 ( a < b , 常数) p(x)=\begin{cases}\displaystyle\frac{1}{b-a}, x{\in}(a,b)\\0,\quad\text{其他}\end{cases}\\(a<b,\text{常数)} p(x)=⎩ ⎨ ⎧b−a1,x∈(a,b)0,其他(a<b,常数) | a + b 2 \displaystyle\frac{a+b}2 2a+b | ( b − a ) 2 12 \displaystyle\frac{(b-a)^2}{12} 12(b−a)2 | e i t b − e i t a i t ( b − a ) \displaystyle\frac{e^{itb}-e^{ita}}{it(b-a)} it(b−a)eitb−eita |
指数分布 E x p ( λ ) Exp(\lambda) Exp(λ) | p ( x ) = { 0 , x < 0 λ e − λ x x ⩾ 0 ( λ > 0 , 常数 ) p(x)=\begin{cases}0,&x<0\\\lambda e^{-\lambda x}&x\geqslant0\end{cases}\\(\lambda>0,\text{常数}) p(x)={0,λe−λxx<0x⩾0(λ>0,常数) | 1 λ \displaystyle\frac1{\lambda} λ1 | 1 λ 2 \displaystyle\frac1{\lambda^2} λ21 | ( 1 − i t λ ) − 1 \displaystyle\left(1-\frac{it}{\lambda}\right)^{-1} (1−λit)−1 |
伽马分布 G a ( α , λ ) Ga(\alpha,\lambda) Ga(α,λ) | p ( x ) = { 0 , x < 0 λ r Γ ( r ) x r − 1 e − λ x , x ⩾ 0 ( r > 0 , λ > 0 , 常数 ) p(x)=\begin{cases}0,&x<0\\\displaystyle\frac{\lambda^r}{\Gamma(r)}x^{r-1}e^{-\lambda x},&x\geqslant0\end{cases}\\(r>0,\lambda>0,\text{常数}) p(x)=⎩ ⎨ ⎧0,Γ(r)λrxr−1e−λx,x<0x⩾0(r>0,λ>0,常数) | r λ \displaystyle\frac r\lambda λr | r λ 2 \displaystyle\frac r{\lambda^2} λ2r | ( 1 − i t λ ) − r \left(1-\displaystyle\frac{it}{\lambda}\right)^{-r} (1−λit)−r |
χ 2 ( n ) \chi^2(n) χ2(n)分布 | p ( x ) = { 0 , x < 0 1 2 n / 2 Γ ( n 2 ) ⋅ x n 2 − 1 e − x 2 , x ⩾ 0 (n正整数) p(x)=\begin{cases}0,&x<0\\\displaystyle\frac{1}{2^{n/2}\Gamma\left(\frac{n}{2}\right)}\cdot x^{\frac{n}{2}-1}e^{-\frac{x}{2}},&x\geqslant0\end{cases}\\\text{(n正整数)} p(x)=⎩ ⎨ ⎧0,2n/2Γ(2n)1⋅x2n−1e−2x,x<0x⩾0(n正整数) | n n n | 2 n 2n 2n | ( 1 − 2 i t ) − n 2 (1-2it)^{-\frac{n}{2}} (1−2it)−2n |
贝塔分布 B e ( a , b ) Be(a,b) Be(a,b) | p ( x ) = { 0 , 其他 Γ ( p + q ) Γ ( p ) ⋅ Γ ( q ) x p − 1 ( 1 − x ) q − 1 , 0 < x < 1 ( p > 0 , q > 0 常数 ) p(x)=\begin{cases}0,\quad &其他\\\displaystyle\frac{\Gamma(p+q)}{\Gamma(p)\cdot\Gamma(q)}x^{p-1}(1-x)^{q-1},&0<x<1\end{cases}\\(p>0,q>0\text{ 常数}) p(x)=⎩ ⎨ ⎧0,Γ(p)⋅Γ(q)Γ(p+q)xp−1(1−x)q−1,其他0<x<1(p>0,q>0 常数) | p p + q \displaystyle\frac p{p+q} p+qp | p q ( p + q ) 2 ( p + q + 1 ) \displaystyle\frac{pq}{(p+q)^2(p+q+1)} (p+q)2(p+q+1)pq | |
对数正态分布 L N ( μ , σ 2 ) LN(\mu,\sigma^2) LN(μ,σ2) | p ( x ) = { 0 , x ⩽ 0 1 σ x 2 π e − ( ln x − a ) 2 2 σ 2 , x > 0 ( σ > 0 , a 常数 ) p(x)=\begin{cases}\quad0,&x\leqslant0\\\displaystyle\frac{1}{\sigma x \sqrt{2\pi}}e^{-\frac{(\ln x-a)^{2}}{2\sigma^{2}}},&x>0\end{cases}\\(\sigma>0,a\text{常数}) p(x)=⎩ ⎨ ⎧0,σx2π1e−2σ2(lnx−a)2,x⩽0x>0(σ>0,a常数) | e μ + σ 2 / 2 \mathrm{e}^{\mu+\sigma^2/2} eμ+σ2/2 | e 2 μ + σ 2 ( e σ 2 − 1 ) \mathrm{e}^{2\mu+\sigma^2}(\mathrm{~e}^{\sigma^2}-1) e2μ+σ2( eσ2−1) | |
柯西分布 C a u ( μ , λ ) \mathrm{Cau}(\mu,\lambda) Cau(μ,λ) | p ( x ) = 1 π ⋅ λ λ 2 + ( x − μ ) 2 − ∞ < x < + ∞ ( λ > 0 , μ 常数 ) p(x)=\displaystyle\frac{1}{\pi}\cdot\frac{\lambda}{\lambda^{2}+(x-\mu)^{2}}\\-\infty<x<+\infty\\(\lambda>0,\mu\text{常数}) p(x)=π1⋅λ2+(x−μ)2λ−∞<x<+∞(λ>0,μ常数) | 不存在 | 不存在 | e i μ t − λ ∣ t ∣ e^{i\mu t-\lambda\lvert t\rvert} eiμt−λ∣t∣ |
韦伯分布 | p ( x ) = { 0 , x ⩽ 0 a λ x a − 1 e − λ x a , x > 0 ( λ > 0 , a > 0 , 常数 ) p(x)=\begin{cases}0,&x\leqslant0\\\\a\lambda x^{a-1}e^{-\lambda x^{a}},&x>0\end{cases}\\(\lambda>0,a>0,\text{常数}) p(x)=⎩ ⎨ ⎧0,aλxa−1e−λxa,x⩽0x>0(λ>0,a>0,常数) | Γ ( 1 a + 1 ) λ − 1 a \Gamma\left(\displaystyle\frac{1}{a}+1\right)\lambda^{-\frac{1}{a}} Γ(a1+1)λ−a1 | λ − 2 α [ Γ ( 2 a + 1 ) − Γ 2 ( 1 a + 1 ) ] \lambda^{-\frac{2}{\alpha}}\Big[\displaystyle\Gamma\left(\frac{2}{a}+1\right)\\-\Gamma^2\left(\frac{1}{a}+1\right)\Big] λ−α2[Γ(a2+1)−Γ2(a1+1)] | |
t t t分布 | p ( x ) = Γ ( n + 1 2 ) n π Γ ( n 2 ) ( 1 + x 2 n ) − n + 1 2 − ∞ < x < + ∞ ( n 正整数 ) p(x)=\displaystyle\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{x^{2}}{n}\right)^{-\frac{n+1}{2}}\\-\infty<x<+\infty(n\text{ 正整数}) p(x)=nπΓ(2n)Γ(2n+1)(1+nx2)−2n+1−∞<x<+∞(n 正整数) | 0 ( n > 1 ) 0\\(n>1) 0(n>1) | n n − 2 ( n > 2 ) \displaystyle\frac{n}{n-2}\\(n>2) n−2n(n>2) | |
F F F分布 | p ( x ) = { 0 , x < 0 Γ ( n 1 + n 2 2 ) Γ ( n 1 2 ) Γ ( n 2 2 ) n 1 n 1 2 n 2 n 2 2 x n 1 2 − 1 ( n 1 x + n 2 ) n 1 + n 2 2 , x ⩾ 0 ( n 1 , n 2 正整数) p(x)=\begin{cases}0,&x<0\\\displaystyle\frac{\Gamma\left(\frac{n_{1}+n_{2}}{2}\right)}{\Gamma\left(\frac{n_{1}}{2}\right)\Gamma\left(\frac{n_{2}}{2}\right)}\frac{n_1^{\frac{n_1}{2}} n_2^{\frac{n_2}{2}} x^{\frac{n_{1}}{2}-1}}{(n_{1}x+n_{2})^{\frac{n_{1}+n_{2}}{2}}},&x\geqslant0\end{cases}\\(n_{1},n_{2}\text{ 正整数)} p(x)=⎩ ⎨ ⎧0,Γ(2n1)Γ(2n2)Γ(2n1+n2)(n1x+n2)2n1+n2n12n1n22n2x2n1−1,x<0x⩾0(n1,n2 正整数) | n 2 n 2 − 2 ( n 2 > 2 ) \displaystyle\frac{n_{2}}{n_{2}-2}\\(n_{2}>2) n2−2n2(n2>2) | 2 n 2 2 ( n 1 + n 2 − 2 ) n 1 ( n 2 − 2 ) 2 ( n 2 − 4 ) ( n 2 > 4 ) \displaystyle\frac{2n_{2}^{2}(n_{1}+n_{2}-2)}{n_{1}(n_{2}-2)^{2}(n_{2}-4)}\\(n_{2}>4) n1(n2−2)2(n2−4)2n22(n1+n2−2)(n2>4) | |
拉普拉斯分布 | p ( x ) = 1 2 λ e − ∣ x − μ ∣ λ − ∞ < x < + ∞ ( λ > 0 , μ 常数 ) p(x)=\frac{1}{2\lambda}e^{-\frac{\lvert x-\mu\rvert}{\lambda}}\\-\infty<x<+\infty\\(\lambda>0,\mu\text{常数}) p(x)=2λ1e−λ∣x−μ∣−∞<x<+∞(λ>0,μ常数) | μ \mu μ | 2 λ 2 2\lambda^2 2λ2 | e i μ t 1 + λ 2 t 2 \displaystyle\frac{e^{i\mu t}}{1+\lambda^2t^2} 1+λ2t2eiμt |
定义
事件域
设 Ω \Omega Ω 为一样本空间, F \mathscr{F} F 为 Ω \Omega Ω 的某些子集所组成的集合类,如果 F \mathscr{F} F 满足:
- Ω ∈ F \Omega \in \mathscr{F} Ω∈F
- 若 A ∈ F A \in \mathscr{F} A∈F,则对立事件 A ‾ ∈ F \overline{A} \in \mathscr{F} A∈F
- 若 A n ∈ F A _n \in \mathscr{F} An∈F, 1 , 2 , … 1,2,\dotsc 1,2,…,则可列并 ⋃ n = 1 + ∞ A n ∈ F \bigcup _{n=1} ^{+\infty} A _n \in \mathscr{F} ⋃n=1+∞An∈F
则称 F \mathscr{F} F 为一个事件域,又称为 σ \sigma σ 代数。
在概率论中,又称 ( Ω , F ) (\Omega, \mathscr{F}) (Ω,F) 为可测空间,这里“可测”是指 F \mathscr{F} F 中都是有概率可言的事件。
概率
设 Ω \Omega Ω 为一个样本空间, F \mathscr{F} F 为 Ω \Omega Ω 的某些子集组成的一个事件域。如果对任一事件 A ∈ F A \in \mathscr{F} A∈F,定义在 F \mathscr{F} F 上的一个实值函数 P ( A ) P(A) P(A) 满足:
-
非负性公理:若 A ∈ F A \in \mathscr{F} A∈F,则 P ( A ) ≥ 0 P(A) \ge 0 P(A)≥0;
-
正则性公理: P ( Ω ) = 1 P (\Omega) = 1 P(Ω)=1;
-
可列可加性公理:若 A 1 A_1 A1, A 2 A_2 A2, … \dots …, A n A_n An, … \dots …,互不相容,有
P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) \begin{equation} P \biggl( \bigcup _{i=1} ^{\infty} A_i \biggr) = \sum _{i=1} ^{\infty} P ( A _i ) \end{equation} P(i=1⋃∞Ai)=i=1∑∞P(Ai)
则称 P ( A ) P (A) P(A) 为事件 A A A 的概率,称三元素 ( Ω , F , P ) (\Omega, \mathscr{F}, P) (Ω,F,P) 为概率空间。
条件概率
在某事件 B B B 发生的条件下,求另一事件 A A A 的概率,记为 P ( A ∣ B ) P(A|B) P(A∣B)。
随机变量
定义在样本空间 Ω \Omega Ω 上的实值函数 X = X ( ω ) X=X(\omega) X=X(ω) 称为随机变量,常用大写字母 X , Y , Z X,Y,Z X,Y,Z 等表示随机变量,其取值用小写字母 x , y , z x,y,z x,y,z 等表示。
假如一个随机变量仅可能取有限个或可列个值,则称其为离散随机变量。假如一个随机变量的可能取值充满数轴上的一个区间 ( a , b ) (a,b) (a,b), 则称其为连续随机变量, 其中 a a a 可以是 − ∞ , b -\infty, b −∞,b 可以是 + ∞ +\infty +∞。
分布函数
设 X X X 是一个随机变量,对任意实数 x x x,称
F ( x ) = P ( X ⩽ x ) F(x)=P(X \leqslant x) F(x)=P(X⩽x)
为随机变量 X X X 的分布函数。且称 X X X 服从 F ( x ) F(x) F(x),记为 X ∼ F ( x ) X\sim F(x) X∼F(x)。有时也可用 F X ( x ) F_{X}(x) FX(x) 以表明是 X X X 的分布函数(把 X X X 作为 F F F 的下标)。
连续随机变量的概率密度函数
设随机变量 X X X 的分布函数为 F ( x ) F(x) F(x),如果存在实数轴上的一个非负可积函数 p ( x ) p(x) p(x),使得对任意实数 x x x 有
F ( x ) = ∫ − ∞ x p ( t ) d t F(x)=\int_{-\infty}^x p(t) \mathrm{d}t F(x)=∫−∞xp(t)dt
从上式可以看出,在$ F(x) $导数存在的点上有
F ′ ( x ) = p ( x ) F^{\prime}(x) = p(x) F′(x)=p(x)
F ( x ) F(x) F(x) 是(累积)概率函数,其导数 F ′ ( x ) F'(x) F′(x) 是概率密度函数,由此可看出 p ( x ) p(x) p(x) 被称为概率密度函数的理由。
数学期望
离散随机变量
设离散随机变量$ X $的分布列为
p ( x i ) = P ( X = x i ) , i = 1 , 2 , ⋯ , n , ⋯ p\left(x_{i}\right)=P\left(X=x_{i}\right), i=1,2, \cdots, n, \cdots p(xi)=P(X=xi),i=1,2,⋯,n,⋯
如果
∑ i = 1 + ∞ ∣ x i ∣ p ( x i ) < + ∞ \sum_{i=1}^{+\infty}\left|x_{i}\right| p\left(x_{i}\right)<+\infty i=1∑+∞∣xi∣p(xi)<+∞
则称
E ( X ) = ∑ i = 1 + ∞ x i p ( x i ) E(X)=\sum_{i=1}^{+\infty} x_{i} p\left(x_{i}\right) E(X)=i=1∑+∞xip(xi)
为随机变量 X X X 的数学期望,或称为该分布的数学期望,简称期望或均值。若级数 ∑ k = 1 + ∞ ∣ x k ∣ p ( x k ) \sum_ {k=1}^{+\infty}\left|x_{k}\right| p\left(x_{k}\right) ∑k=1+∞∣xk∣p(xk) 不收敛,则称 X X X 的数学期望不存在。
连续随机变量
设连续随机变量$ X 的密度函数为 的密度函数为 的密度函数为 p(x) $.如果
∫ − ∞ + ∞ ∣ x ∣ p ( x ) d x < + ∞ \int_{-\infty}^{+\infty}|x| p(x) \mathrm{d} x<+\infty ∫−∞+∞∣x∣p(x)dx<+∞
则称
E ( X ) = ∫ − ∞ + ∞ x p ( x ) d x E(X)=\int_{-\infty}^{+\infty} x p(x) \mathrm{d} x E(X)=∫−∞+∞xp(x)dx
为 X X X 的数学期望,或称为该分布 p ( x ) p(x) p(x) 的数学期望,简称期望或均值。若 ∫ − ∞ + ∞ ∣ x ∣ p ( x ) d x \int_{-\infty}^{+\infty}|x| p(x) \mathrm{d} x ∫−∞+∞∣x∣p(x)dx 不收敛,则称 X X X 的数学期望不存在。
方差与标准差
若随机变量 X 2 X^2 X2 的数学期望 E ( X 2 ) E(X^2) E(X2) 存在,则称偏差平方 ( X − E X ) 2 (X-EX)^2 (X−EX)2 的数学期望 E ( X − E X ) 2 E(X-EX)^2 E(X−EX)2 为随机变量 X X X (或相应分布)的方差,记为
V a r ( X ) = E ( X − E ( X ) ) 2 = { ∑ i [ x i − E ( X ) ] 2 p ( x i ) , 在离散场合; ∫ − ∞ + ∞ [ x − E ( X ) ] 2 p ( x ) d x , 在连续场合。 \mathrm{Var}(X)=E(X-E(X))^2=\begin{cases}\sum_i[x_i-E(X)]^2p(x_i),&\text{在离散场合;}\\\int_{-\infty}^{+\infty}[x-E(X)]^2p(x) \mathrm{d}x,&\text{在连续场合。}\end{cases} Var(X)=E(X−E(X))2={∑i[xi−E(X)]2p(xi),∫−∞+∞[x−E(X)]2p(x)dx,在离散场合;在连续场合。
称方差的正平方根 V a r ( X ) \sqrt{\mathrm{Var} (X)} Var(X) 为随机变量 X X X (或相应分布)的标准差,记为 σ ( X ) \sigma(X) σ(X), 或 σ X \sigma_X σX。
以下均假定随机变量的方差是存在的
-
V a r ( X ) = E ( X 2 ) − [ E ( X ) ] 2 \mathrm{Var}(X)=E(X^2)-[E(X)]^{2} Var(X)=E(X2)−[E(X)]2
-
常数的方差为 0,即 V a r ( c ) = 0 \mathrm{Var}(c)=0 Var(c)=0,其中 $ c $ 是常数
-
若 a , b a,b a,b 是常数,则 V a r ( a X + b ) = a 2 V a r ( X ) \mathrm{Var} (a X+b)=a^{2} \mathrm{Var} (X) Var(aX+b)=a2Var(X)
最大似然估计
设总体的概率函数为 p ( x ; θ ) p(x;\theta) p(x;θ), θ ∈ Θ \theta\in\Theta θ∈Θ,其中 θ \theta θ 是一个未知参数或几个未知参数组成的参数向量, Θ \Theta Θ 是参数空间, x 1 , ⋯ , x n x_1,\cdots,x_n x1,⋯,xn 是来自该总体的样本,将样本的联合概率函数看成 θ \theta θ 的函数,用 L ( θ ; x 1 , ⋯ , x n ) L(\theta;x_1,\cdots,x_n) L(θ;x1,⋯,xn) 表示,简记为 L ( θ ) L(\theta) L(θ)
L ( θ ) = L ( θ ; x 1 , ⋯ , x n ) = p ( x 1 ; θ ) ⋅ p ( x 2 ; θ ) ⋅ ⋯ ⋅ p ( x n ; θ ) L(\theta)=L(\theta;x_1,\cdots,x_n)=p(x_1;\theta)\cdot p(x_2;\theta)\cdot \cdots \cdot p(x_n;\theta) L(θ)=L(θ;x1,⋯,xn)=p(x1;θ)⋅p(x2;θ)⋅⋯⋅p(xn;θ)
L ( θ ) L(\theta) L(θ) 称为样本的似然函数。如果某统计量 θ ^ = θ ^ ( x 1 , ⋯ , x n ) \hat{\theta}=\hat{\theta}(x_1,\cdots,x_n) θ^=θ^(x1,⋯,xn) 满足
L ( θ ^ ) = max θ ∈ Θ L ( θ ) L(\hat{\theta})=\max_{\theta\in\Theta}L(\theta) L(θ^)=θ∈ΘmaxL(θ)
则称 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的最大似然估计,简记为 MLE(Maximum Likelihood Estimate)。
由于 ln x \ln x lnx 是 x x x 的单调增函数,因此,使对数似然函数 ln L ( θ ) \ln L(\theta) lnL(θ) 达到最大与使 L ( θ ) L(\theta) L(θ) 达到最大是等价的。人们通常更习惯于由 ln L ( θ ) \ln L(\theta) lnL(θ) 出发寻找 θ \theta θ 的最大似然估计。当 L ( θ ) L(\theta) L(θ) 是可微函数时,求导是求最大似然估计最常用的方法,此时对对数似然函数求导更加简单些。
特征函数
设 p ( x ) p (x) p(x) 是随机变量 X X X 的密度函数,则 p ( x ) p (x) p(x) 的傅里叶变换是
φ ( t ) = ∫ − ∞ + ∞ e i t x p ( x ) d x \varphi (t) = \int_{-\infty}^{+\infty} \mathrm{e}^{itx} p (x) \mathrm{d} x φ(t)=∫−∞+∞eitxp(x)dx
其中 i = − 1 i = \sqrt{-1} i=−1 是虚数单位。
由数学期望的概念知, φ ( t ) \varphi (t) φ(t) 恰好是 E ( e i t x ) E \left( \mathrm{e}^{itx} \right) E(eitx)。
它是处理许多概率论问题的有力工具,它能把寻求独立随机变量和的分布的卷积运算 (积分运算) 转换成乘法运算,还能把求分布的各阶原点矩 (积分运算) 转换成微分运算。特别它能把寻求随机变量序列的极限分布转换成一般的函数极限问题。
设 X X X 是一个随机变量,称
φ ( t ) = E ( e i t x ) , − ∞ ≤ t ≤ + ∞ \varphi (t) = E \bigl( \mathrm{e}^{itx} \bigr), \; -\infty \leq t \leq +\infty φ(t)=E(eitx),−∞≤t≤+∞
为 X X X 的特征函数。
因为 ∣ e i t x ∣ ≤ 1 \lvert \mathrm{e}^{itx} \rvert \leq 1 ∣eitx∣≤1,所以 E ( e i t X ) E \bigl( \mathrm{e}^{itX} \bigr) E(eitX) 总是存在的,即任一随机变量的特征函数总是存在的。
若 E ( x l ) E (x^l) E(xl) 存在,则 X X X 的特征函数 φ ( t ) \varphi(t) φ(t) 可 l l l 次求导,且对 1 ≤ k ≤ l 1 \leq k \leq l 1≤k≤l, 有
φ ( k ) ( 0 ) = i k E ( X k ) \varphi^{(k)} (0) = i^k E ( X^k ) φ(k)(0)=ikE(Xk)
上式提供了一条求随机变量的各阶矩的途径,特别可用下式去求数学期望和方差。
E ( X ) = φ ′ ( 0 ) i , V a r ( X ) = − φ ′ ′ ( 0 ) + ( φ ′ ( 0 ) ) 2 E (X) = \frac{\varphi' (0)}{i}, \quad \mathrm{Var} (X) = - \varphi'' (0) + \bigl( \varphi' (0) \bigr)^2 E(X)=iφ′(0),Var(X)=−φ′′(0)+(φ′(0))2
不等式
Chebyshev(切比雪夫)不等式
设随机变量 X X X 的数学期望和方差都存在,则对任意常数 e > 0 e>0 e>0,有
KaTeX parse error: Undefined control sequence: \label at position 83: …arepsilon^{2}} \̲l̲a̲b̲e̲l̲{eq:2.3.2}
或
KaTeX parse error: Undefined control sequence: \label at position 78: …arepsilon^{2}} \̲l̲a̲b̲e̲l̲{eq:2.3.3}
证明:
设 X X X 是一个连续随机变量,其密度函数为 p ( x ) p(x) p(x)。记 E ( X ) = a E(X)=a E(X)=a,我们有
P ( ∣ X − a ∣ ⩾ ε ) = ∫ { x : ∣ x − a ∣ ⩾ ε } p ( x ) d x ⩽ ∫ { x : ∣ x − a ∣ ⩾ ε } ( x − a ) 2 ε 2 p ( x ) d x ⩽ 1 ε 2 ∫ − ∞ + ∞ ( x − a ) 2 p ( x ) d x = V a r ( X ) ε 2 \begin{align*} {P(|X-a| \geqslant \varepsilon)} & {=\int_{\{x: |x-a| \geqslant \varepsilon\}} p(x) \mathrm{d} x \leqslant \int_{\{x: |x-a| \geqslant \varepsilon\}} \frac{(x-a)^{2}}{\varepsilon^{2}} p(x) \mathrm{d} x} \\ {} & {\leqslant \frac{1}{\varepsilon^{2}} \int_{-\infty}^{+\infty}(x-a)^{2} p(x) \mathrm{d} x=\frac{\mathrm{Var} (X)}{\varepsilon^{2}}} \end{align*} P(∣X−a∣⩾ε)=∫{x:∣x−a∣⩾ε}p(x)dx⩽∫{x:∣x−a∣⩾ε}ε2(x−a)2p(x)dx⩽ε21∫−∞+∞(x−a)2p(x)dx=ε2Var(X)
由此知对连续随机变量成立,对于离散随机变量亦可类似进行证明。
在概率论中,事件 ∣ X − E ( X ) ∣ ⩾ ε |X-E(X)| \geqslant \varepsilon ∣X−E(X)∣⩾ε 称为大偏差,其概率 P ( 1 X − E ( X ) 1 ⩾ e ) P(1X-E(X)1 \geqslant e) P(1X−E(X)1⩾e) 称为大偏差发生概率。切比雪夫不等式给出大偏差发生概率的上界,这个上界与方差成正比,方差愈大上界也愈大。