漫步数理统计三十——依概率收敛

本篇博文我们将正式地陈述一系列随机变量靠近某个随机变量。

定义1： {Xn} 是一系列随机变量， X 是定义在样本空间上的随机变量。我们说 Xn 依概率收敛到 X ，如果对于 ϵ>0

lim n \to \infty P [| X n - X | \geq ϵ] = 0

或者等价的

lim n \to \infty P [| X n - X | < ϵ] = 1

如果成立，我们一般写成

X n \to P X

如果 Xn→PX ，我们常说 Xn−X 的差收敛到0。极限随机变量 X 经常是一个常数；例如 X 是一个退化的随机变量。

说明依概率收敛的一种方法是用切比雪夫定理，具体会在下面的证明中给出，为了强调我们是一系列随机变量，我们在随机变量上给出下标，像 X¯ 写成 X¯n 。

理1： (弱大数定理) {Xn} 是一系列独立同分布的随机变量，均值为 μ ，方差为 σ2<∞ ， X¯n=n−1∑ni=1Xi ，那么

X ¯ n \to P μ

证明：回忆一下 X¯n 的均值与方差分别为 μ,σ2/n ，因此根据切比雪夫定理，对于任意的 ϵ>0

P [| X ¯ - μ | \geq ϵ] = P [| X ¯ - μ |] \geq (ϵ n ‾ ‾ \sqrt / σ) (σ / n \sqrt) \leq σ 2 n ϵ 2 \to 0

这个定理说明，当 n 取向 ∞ 时， X¯ 分布的所有质量收敛到 μ 。也就时候对于大的 n ， X¯ 接近 μ ，但是多接近呢？例如如果我们用 X¯n 估计 μ ，那么估计误差是多少？这个问题留到下篇博文讲解。

还有一个强大数定理，它弱化了定理1的假设：随机变量 Xi 独立且都有有限的均值 μ ，因此强大数定理是一阶矩定理，而弱大数定理需要二阶矩存在。

还有些关于依概率收敛的定理，我们在后面会用到，首先是两个关于依概率收敛对线性封闭的定理。

理2：假设 Xn→PX,Yn→PY ，那么 Xn+Yn→PX+Y 。

： ϵ>0 已给定，利用三角不等式可得

| X n - X | + | Y n - Y | \geq | (X n + Y n) - (X + Y) | \geq ϵ

因为 P 是单调的，所以我们有

P [(X n + Y n) - (X + Y) \geq ϵ] \leq P [| X n - X | + | Y n - Y | \geq ϵ] \leq P [| X n - X | \geq ϵ / 2] + P [| Y n - Y | \geq ϵ / 2]

根据定理的假设，后两项收敛到0，从而得证。 ||

理3：假设 Xn→PX 且 a 是一个常数，那么 aXn→PaX 。

：如果 a=0 ，结论明显成立。假设 a≠0 ，令 ϵ>0 ，那么

P [| a X n - a X | \geq ϵ] = P [| a | | X n - X | \geq ϵ] = P [| X n - X | \geq ϵ / | a |]

根据假设最后一项趋于0。 ||

理4：假设 Xn→Pa 且函数 g 在 a 点连续，那么 g(Xn@H_546_3270@)→Pg(a) 。

：令 ϵ>0 ，那么因为 g 在 a 点连续，所以存在 δ>0 使得如果 |x−a|<δ,|g(x)−g(a)|<ϵ ，所以

| g (x) - g (a) | \geq ϵ \Rightarrow | x - a | \geq δ

代入 Xn 可得

P [| g (X n) - g (a) | \geq ϵ] \leq P [| X n - a | \geq δ]

根据假设，最后一项在 n→∞ 时趋于0，得证。 ||

这个定理给出了许多有用的结论。例如，如果 Xn→Pa ，那么

X 2 n 1 / X n X n ‾ ‾ ‾ \sqrt \to P a 2 \to P 1 / a, 假 设 a \neq 0 \to P a ‾ ‾ \sqrt, 设 a \geq 0

实际上，如果 Xn→PX 且 g 是连续函数，那么 g(Xn)→Pg(X) ，下面的定理就用了这个结论。

理5：假设 Xn→PX,Yn→PY ，那么 XnYn→PXY 。

：利用上面的结论，我们有

X n Y n = 1 2 X 2 n + 1 2 Y 2 n - 1 2 (X n - Y n) 2 \to P 1 2 X 2 + 1 2 Y 2 - 1 2 (X - Y) 2 = X Y

现在回到采样与统计的讨论，考虑这么一种情况，随机变量 X 的分布有未知参数 θ∈Ω ，我们要基于样本找到一个统计量来估计 θ ，上篇博文我们介绍了无偏性，现在介绍一致性：
义2： X 是cdf为 F(x,θ),θ∈Ω 的随机变量， X1,…,Xn 是 X 分布的样本且 Tn 表示一个统计量。我们说 Tn 是 θ 的一致估计，如果

T n \to P θ

如果 X1,…,Xn 是有限均值 μ 和方差 σ2 分布的随机样本，那么根据弱大数定理，样本均值 X¯ 是 μ 的一致估计。

例1： X1,…,Xn 表示均值为 μ 方差为 σ2 分布的随机样本，定理1说明 X¯→Pμ 。为了说明样本均值依概率收敛到 σ2 ，假设 E[X41]<∞ ，这样的话 var(S2)<∞ 。根据前面的结论可得：

S 2 n = 1 n - 1 \sum i = 1 n (X i - X ¯ n) 2 = n n - 1 (1 n \sum i = 1 n X 2 i - X ¯ 2 n) \to P 1 \cdot [E (X 21) - μ 2] = σ 2

因此样本方差是 σ2 的一致估计。

不像上面的例子，有时候我们可以用分布函数得出收敛，如下例所示：

例2： X1,…,Xn 是均匀分布 (0,θ) 的随机样本， Yn=max{X1,…,Xn} ，从 Yn 的cdf中很容易看出 Yn→Pθ 且样本最大值是 θ 的一致估计。注意无偏估计 ((n+1)/n)Yn 也是一致的。

接下里扩展下例2，根据定理1可得 X¯n 是 θ/2 的一致估计，所以 2X¯n 是 θ 的一致估计，注意 Yn,2X¯n 依概率收敛到 θ 的区别。对 Yn 而言我们用的是 Yn 的cdf，但对 2X¯n 而言，我们用的是弱大数定理。事实上 2X¯n 的cdf非常复杂。在许多情况下，统计量的cdf无法得到但是我们可以用近似理论来建立结论。其实还有许多其他 θ 的估计量，那么哪个是最好的呢？后面的文章会继续介绍。

一致性是估计量非常重要的性质，当样本数量增大时差的估计量不可能靠近目标。注意这对无偏性是不成立的。例如我们不用样本方差来估计 σ2 ，假设用 V=n−1∑ni=1(Xi−X¯)2 ，那么 V 是 σ2 的一致估计，但是是有偏的，因为 E(V)=(n−1)σ2/n ，所以 V 的偏置为 σ2/n ，当 n→∞ 时该项消失。

漫步数理统计三十——依概率收敛

相关推荐