微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在统计学中,样本是单个数据点还是数据点池?

如何解决在统计学中,样本是单个数据点还是数据点池?

这个问题让我在统计学上很困惑。我认为在统计中,样本是来自 PDF 的数据点池,而不是单个数据点,对吗?在日常用语中,如果您对某样东西进行取样,例如从糖果罐中取样,则意味着只取一颗糖果。但在统计学中,似乎一个样本总是像重复拿糖果 20 次的动作(意思是一个大小为 20 的样本)。我说的对吗?

另外,我如何解释随机变量上下文中的采样?以那个糖果罐为例,我通过重复吃糖果的事件而吃到的糖果,每个都是独立的随机变量吗?

解决方法

这是一个很好的问题,可能会产生深远的影响。为了澄清这个问题,我认为将概念很好地分开是个好主意。我可以总结的最简单的方法如下:

抽样:它是从总体中选择样本单元的子集(样本)以估计整个总体特征的方法和过程的研究领域。

人口:这是我们希望获得信息的整个感兴趣的群体。示例:(i) 南极洲的所有帝企鹅,(ii) 美国的所有已婚妇女,(iii) 世界上所有 10 岁以下的儿童。

请注意它会变得多么棘手:您的人口可以是另一个人口的子集 - “美国所有已婚女性”是“世界上所有女性”的子集。秘诀是要记住,总体是在特定情况下感兴趣的整个群体。

人口特征:这是您想要衡量的人口方面。示例:(i) 南极帝企鹅的平均身高,(ii) 美国已婚女性的平均年龄,(iii) 世界上 10 岁以下糖尿病儿童的比例。

样本:由总体子集组成的一个组。您可以从所需的总体中抽取 1N 个样本单位(见下文)。

样本单位​​strong>:必须根据研究的兴趣来定义,可以是个人、家庭、国家等。选择必须在研究开始时进行。

在您的问题中,我相信我们只需要将名词 sample 与动词 to sample 分开即可使事情清楚。

你可以正确地说:

  • “我正在从罐子里取样糖果”。
  • “我有一个大小为 1 的糖果样品”。
  • “我有一个 25 号的糖果样品”。
  • “我必须有一个 30 号的样品”。

我相信这里有另一个关于古典统计概念的切线问题超出了问题的范围,那就是静态显着性 - 您可能希望有足够大的样本量来推断有关的信息感兴趣的人群——这可能是人们相信没有样本大小等于 1 的原因,但请记住,某些主题涉及对罕见事件的分析,在这些情况下,无论如何你的样本量都会很小。

最后但并非最不重要的一点是,关于在随机变量上下文中进行抽样,最准确的答案是:视情况而定。举个例子:假设你的糖果罐只有绿色和红色的糖果。我们可以定义一个随机变量 X,如果采样的糖果是绿色的,则为 0,否则为 1。但我们也可以定义一个随机变量 Y,它是在每次尝试总是取 10 个糖果的勺子中采样的绿色糖果的总和。对于 XY,我们可以考虑有或没有重新定位的场景,我们可能对变量 Z = g(X,Y) 感兴趣,等等 - 样本单位之间的独立性可能会根据您的总体和感兴趣的“过程”而有所不同。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。