本篇博文我们将正式地陈述一系列随机变量靠近某个随机变量。
定义1:
{Xn}
是一系列随机变量,
X
是定义在样本空间上的随机变量。我们说
Xn
依概率收敛到
X
,如果对于
ϵ>0
limn→∞P[|Xn−X|≥ϵ]=0
或者等价的
limn→∞P[|Xn−X|<ϵ]=1
如果成立,我们一般写成
Xn→PX
如果
Xn→PX
,我们常说
Xn−X
的差收敛到0。极限随机变量
X
经常是一个常数;例如
X
是一个退化的随机变量。
说明依概率收敛的一种方法是用切比雪夫定理,具体会在下面的证明中给出,为了强调我们是一系列随机变量,我们在随机变量上给出下标,像
X¯
写成
X¯n
。
理1:
(弱大数定理)
{Xn}
是一系列独立同分布的随机变量,均值为
μ
,方差为
σ2<∞
,
X¯n=n−1∑ni=1Xi
,那么
X¯n→Pμ
证明:
回忆一下
X¯n
的均值与方差分别为
μ,σ2/n
,因此根据切比雪夫定理,对于任意的
ϵ>0
P[|X¯−μ|≥ϵ]=P[|X¯−μ|]≥(ϵn‾‾√/σ)(σ/n√)≤σ2nϵ2→0
||
这个定理说明,当
n
取向
∞
时,
X¯
分布的所有质量收敛到
μ
。也就时候对于大的
n
,
X¯
接近
μ
,但是多接近呢?例如如果我们用
X¯n
估计
μ
,那么估计误差是多少?这个问题留到下篇博文讲解。
还有一个强大数定理,它弱化了定理1的假设:随机变量
Xi
独立且都有有限的均值
μ
,因此强大数定理是一阶矩定理,而弱大数定理需要二阶矩存在。
还有些关于依概率收敛的定理,我们在后面会用到,首先是两个关于依概率收敛对线性封闭的定理。
理2:
假设
Xn→PX,Yn→PY
,那么
Xn+Yn→PX+Y
。
:
ϵ>0
已给定,利用三角不等式可得
|Xn−X|+|Yn−Y|≥|(Xn+Yn)−(X+Y)|≥ϵ
因为
P
是单调的,所以我们有
P[(Xn+Yn)−(X+Y)≥ϵ]≤P[|Xn−X|+|Yn−Y|≥ϵ]≤P[|Xn−X|≥ϵ/2]+P[|Yn−Y|≥ϵ/2]
根据定理的假设,后两项收敛到0,从而得证。
||
理3:
假设
Xn→PX
且
a
是一个常数,那么
aXn→PaX
。
:
如果
a=0
,结论明显成立。假设
a≠0
,令
ϵ>0
,那么
P[|aXn−aX|≥ϵ]=P[|a||Xn−X|≥ϵ]=P[|Xn−X|≥ϵ/|a|]
根据假设最后一项趋于0。
||
理4:
假设
Xn→Pa
且函数
g
在
a
点连续,那么
g(Xn@H_546_3270@)→Pg(a)
。
:
令
ϵ>0
,那么因为
g
在
a
点连续,所以存在
δ>0
使得如果
|x−a|<δ,|g(x)−g(a)|<ϵ
,所以
|g(x)−g(a)|≥ϵ⇒|x−a|≥δ
代入
Xn
可得
P[|g(Xn)−g(a)|≥ϵ]≤P[|Xn−a|≥δ]
根据假设,最后一项在
n→∞
时趋于0,得证。
||
这个定理给出了许多有用的结论。例如,如果
Xn→Pa
,那么
X2n1/XnXn‾‾‾√→Pa2→P1/a,假设a≠0→Pa‾‾√,设a≥0
实际上,如果
Xn→PX
且
g
是连续函数,那么
g(Xn)→Pg(X)
,下面的定理就用了这个结论。
理5:
假设
Xn→PX,Yn→PY
,那么
XnYn→PXY
。
:
利用上面的结论,我们有
XnYn=12X2n+12Y2n−12(Xn−Yn)2→P12X2+12Y2−12(X−Y)2=XY
现在回到采样与统计的讨论,考虑这么一种情况,随机变量
X
的分布有未知参数
θ∈Ω
,我们要基于样本找到一个统计量来估计
θ
,上篇博文我们介绍了无偏性,现在介绍一致性:
义2:
X
是cdf为
F(x,θ),θ∈Ω
的随机变量,
X1,…,Xn
是
X
分布的样本且
Tn
表示一个统计量。我们说
Tn
是
θ
的一致估计,如果
Tn→Pθ
如果
X1,…,Xn
是有限均值
μ
和方差
σ2
分布的随机样本,那么根据弱大数定理,样本均值
X¯
是
μ
的一致估计。
例1:
X1,…,Xn
表示均值为
μ
方差为
σ2
分布的随机样本,定理1说明
X¯→Pμ
。为了说明样本均值依概率收敛到
σ2
,假设
E[X41]<∞
,这样的话
var(S2)<∞
。根据前面的结论可得:
S2n=1n−1∑i=1n(Xi−X¯n)2=nn−1(1n∑i=1nX2i−X¯2n)→P1⋅[E(X21)−μ2]=σ2
因此样本方差是
σ2
的一致估计。
不像上面的例子,有时候我们可以用分布函数得出收敛,如下例所示:
例2:
X1,…,Xn
是均匀分布
(0,θ)
的随机样本,
Yn=max{X1,…,Xn}
,从
Yn
的cdf中很容易看出
Yn→Pθ
且样本最大值是
θ
的一致估计。注意无偏估计
((n+1)/n)Yn
也是一致的。
接下里扩展下例2,根据定理1可得
X¯n
是
θ/2
的一致估计,所以
2X¯n
是
θ
的一致估计,注意
Yn,2X¯n
依概率收敛到
θ
的区别。对
Yn
而言我们用的是
Yn
的cdf,但对
2X¯n
而言,我们用的是弱大数定理。事实上
2X¯n
的cdf非常复杂。在许多情况下,统计量的cdf无法得到但是我们可以用近似理论来建立结论。其实还有许多其他
θ
的估计量,那么哪个是最好的呢?后面的文章会继续介绍。
一致性是估计量非常重要的性质,当样本数量增大时差的估计量不可能靠近目标。注意这对无偏性是不成立的。例如我们不用样本方差来估计
σ2
,假设用
V=n−1∑ni=1(Xi−X¯)2
,那么
V
是
σ2
的一致估计,但是是有偏的,因为
E(V)=(n−1)σ2/n
,所以
V
的偏置为
σ2/n
,当
n→∞
时该项消失。