微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何比较 2 个统计采样器的性能?

如何解决如何比较 2 个统计采样器的性能?

假设我有一个有 10 棵树的果园,总共有 1000 个苹果。果园中的每棵树可能有不同数量的苹果,或者根本没有苹果。我有两个桶采样器:第一个很小,一次从一棵树上取 X% 的苹果(即每个样本),第二个采样器很大,一次从两棵树上取 X% 的苹果.两个采样器的 X% 相同,采样没有替换(意味着特定样本中的苹果保持不变),并且两个采样器必须恰好制作 50 个样本。另外,我假设两个采样器不在同一个果园里操作,但每个采样器都有自己的果园,与另一个相同。

我需要的是比较每个采样器在 50 个样本后产出的苹果总量。自然,如果X=100%,那么两个采样器都会产出果园里所有的苹果,它们的性能是一样的;但是我如何计算它们作为 X% 函数性能差异?

解决方法

我没有适合您的解决方案,但我怀疑信息缺乏或我误解了某些内容。下面以X=100为例说明问题。

N=10 是树的总种群大小 BS1 从 50 棵树上收集 X% 的苹果 BS2 从 100 棵树中收集 X% 的苹果 让我表示 i=1,...,10 的 i'the 树。让 yi 表示树 i 上的苹果数量。让我们假设每棵树都有固定的未知数量的苹果。因为你说当对 9 棵树的所有苹果进行采样时总共有 1000 个苹果,我们知道第 10 棵树上的苹果数量 - 但我将忽略这一点,并假设 yi 完全未知。

如果 X=100% 并且我们采样一次 BS1 收集随机?以某种概率从树中收集 - 假设每棵树有 1/10。同时 BS2 对两棵树做同样的事情。假设BS2和BS1不能选择同一棵树,并且BS1总是先选择。

在第一个样本之后,BS1 采摘了 yi 个苹果,BS2 采摘了 yl+yj 个苹果,因为 (i,j,l in 1,...10,and i \ne j\ne l).

在第三个样本之后,只剩下一棵树上有苹果。 由于 BS1 首先选择并且我们没有替换地进行采样,因此 BS1 将选择 3+1 棵树,BS2 将选择 6 棵树因此 BS1 将总是选择超过一半的树(因为他先选择)。采摘的苹果数量将取决于苹果在树上的分布情况。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。