如何解决时间序列数据的 ANOVA 检验
在下面的 Analytics Vidya 帖子中,对 COVID 数据进行了方差分析,以检查密集区域的阳性病例的差异是否具有统计显着性。
我相信无法对这个 COVID 时间序列数据进行方差分析,至少不像这篇文章中所做的那样。 样本数据是从不同组(密集 1、密集 2……密集 4)中随机考虑的。数据是时间序列,因此组的随机样本中的阳性病例数更有可能来自不同的时间点。 可能存在这种情况,denser1 具有来自早期 Covid 时间的随机数据,而另一个区域具有来自另一个时间点的随机数据。如果是这样,那么 F-Statistics 肯定会很高。
如果您有其他意见,谁能解释一下?
解决方法
方差分析不应用于时间序列数据,因为违反了独立性假设。独立性的问题在于,日子往往高度相关。例如,如果您知道今天有 1400 个阳性病例,那么无论任何潜在趋势如何,您都希望明天有相似数量的阳性病例。
听起来您正在尝试确定不同治疗方法(即口罩要求或其他限制等)的因果关系及其对阳性病例的影响。推断因果关系的最佳方法通常是进行 A-B 测试,但显然在这种情况下,对不同的人群进行不同的处理是不合理的。一种有利于回溯和追溯因果关系的方法称为“综合控制”。
https://economics.mit.edu/files/17847
上面链接了有关该方法的基本论文。此分析的难点在于构建合成反事实或“对照”来测试您的实际人口。
如果这不是您要找的,请回复一个澄清问题,但我认为这应该是一种非常适合研究时间序列数据的合适方法。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。