微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何处理目标变量中的时间步长与预测问题中的特征不匹配?

如何解决如何处理目标变量中的时间步长与预测问题中的特征不匹配?

背景信息:

我正在处理一些气候数据,我想使用包含气候和卫星衍生特征的数据集来预测作物产量。

这是一个时间序列回归预测问题,我想通过 XGBoost 和 Lasso 来生成我的预测。但是,我的特征和目标变量之间的采样频率不匹配;每周记录特征,每年记录目标变量。

目前,我使用宽格式表作为 ML 模型的输入数据集,但我觉得当输入表被格式化为宽格式时,我的模型没有生成准确的预测,因为有与使用长格式表格相比,样本更少。

数据表参考:

作为参考,宽格式表如下所示,其中后缀表示功能的周数:

ID crop_yield precip1 precip2 precip3 max_temp1 max_temp2 max_temp3
1100 2000 32.1 5.3 3.0 3.1 13.3 15.3 3.1
1100 2001 31.6 6.6 3.2 1.1 11.3 12.3 6.1
5903 2000 41.2 3.4 0.5 2.1 10.3 18.3 8.1
5903 2001 27.7 1.7 3.8 8.1 12.3 16.3 5.1

长格式表看起来像这样:

ID crop_yield 沉淀 max_temp
1100 2000 32.1 1 5.3 13.3
1100 2000 32.1 2 3.0 15.3
1100 2000 32.1 3 3.1 3.1
1100 2001 31.6 1 6.6 11.3
1100 2001 31.6 2 3.2 12.3
1100 2001 31.6 3 1.1 6.1
5903 2000 41.2 1 3.4 10.3
5903 2000 41.2 2 0.5 18.3
5903 2000 41.2 3 2.1 8.1
5903 2001 27.7 1 1.7 12.3
5903 2001 27.7 2 3.8 16.3
5903 2001 27.7 3 8.1 5.1

问题:

是否建议使用长格式表作为我的 ML 模型的输入?我觉得每个相关 ID 和年份的相同作物产量会让我的模型失败。

此外,是否有更好的方法来构建我尚未探索的数据?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。