微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

时间序列数据的 ANOVA 检验

如何解决时间序列数据的 ANOVA 检验

在下面的 Analytics Vidya 帖子中,对 COVID 数据进行了方差分析,以检查密集区域的阳性病例的差异是否具有统计显着性。

我相信无法对这个 COVID 时间序列数据进行方差分析,至少不像这篇文章中所做的那样。 样本数据是从不同组(密集 1、密集 2……密集 4)中随机考虑的。数据是时间序列,因此组的随机样本中的阳性病例数更有可能来自不同的时间点。 可能存在这种情况,denser1 具有来自早期 Covid 时间的随机数据,而另一个区域具有来自另一个时间点的随机数据。如果是这样,那么 F-Statistics 肯定会很高。

如果您有其他意见,谁能解释一下?

https://www.analyticsvidhya.com/blog/2020/06/introduction-anova-statistics-data-science-covid-python/

解决方法

方差分析不应用于时间序列数据,因为违反了独立性假设。独立性的问题在于,日子往往高度相关。例如,如果您知道今天有 1400 个阳性病例,那么无论任何潜在趋势如何,您都希望明天有相似数量的阳性病例。

听起来您正在尝试确定不同治疗方法(即口罩要求或其他限制等)的因果关系及其对阳性病例的影响。推断因果关系的最佳方法通常是进行 A-B 测试,但显然在这种情况下,对不同的人群进行不同的处理是不合理的。一种有利于回溯和追溯因果关系的方法称为“综合控制”。

https://economics.mit.edu/files/17847

上面链接了有关该方法的基本论文。此分析的难点在于构建合成反事实或“对照”来测试您的实际人口。

如果这不是您要找的,请回复一个澄清问题,但我认为这应该是一种非常适合研究时间序列数据的合适方法。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。