微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何确定要考虑的最小样本以获得与所有样本几乎相同的平均值?

如何解决如何确定要考虑的最小样本以获得与所有样本几乎相同的平均值?

我想知道是否有任何标准算法或统计参数可以用来确定从一开始就应该考虑多少个最小样本,其平均值几乎与所有样本的平均值相匹配。

例如:如果存在 2000 个样本且平均值为 20 可接受的平均范围是 20+-0.01 如果我们从第一个样本开始取平均值,那么通过取 X 个样本的平均值,我们可以在 20+-0.01 范围内获得平均值

问题在于找到 X 的值 只需要从逻辑角度的指导[要考虑的程序或算法] 提前致谢

解决方法

好的,所以如果标准差已知,那么对于标准差等于 s 的正态分布,对于样本均值将在真实均值的 0.01 以内的 95% 置信度,我们要求:

0.01 = z95 x s / sqrt(n)

这里,z95 是正态分布的两侧 CDF,约为 1.96(来自表格),s 是标准差,n 是所需的样本数。我们可以根据 s 求解 n:

    0.01 = 1.96 x s / sqrt(n)
<=> sqrt(n) = 196s
<=> n = 38416s

因此,如果 s = 1,您预计需要大约 38.5k 个样本才能获得 95% 的置信度,即样本均值在真实均值的 0.01 以内。达到给定精度所需的样本数量与真实样本标准偏差成正比。

如果不知道真实总体的标准差,则计算以类似的方式工作,除了您将使用学生 T 分布中的 CDF(因此您将使用 t95 而不是 z95)并且您将使用样本标准差。

如果您想要一个不同的置信区间 - 更高或更低 - 您可以为您使用的任何分布查找相应的两侧 CDF,并使用相应的值(除了 1.96 之外的其他值)。

维基百科基本步骤部分的讨论很有启发性:https://en.wikipedia.org/wiki/Confidence_interval

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。