如何解决熊猫升采样不包括一年中最后一天的23小时
2017-01-01 5
2017-01-02 10
.
.
2017-12-31 6
我正尝试使用以下方法将其上采样为每小时数据:
weather.resample('H').pad()
我希望每24天* 365天可以看到8760个条目。但是,它只返回8737,而12月31日缺少最后23个间隔。我需要做些特别的事情来获得最后一天的24个间隔吗?
谢谢。
解决方法
Pandas将2017-12-31
标准化为2017-12-31 00:00
,然后创建一个以最后一个日期时间结束的范围...在重新采样之前,我将包括最后一行
df.loc['2018-01-01'] = 0
编辑:
您可以使用numpy.repeat
以这个df
np.random.seed(1)
weather = pd.DataFrame(index=pd.date_range('2017-01-01','2017-12-31'),data={'WEATHER_MAX': np.random.random(365)*15})
WEATHER_MAX
2017-01-01 6.255330
2017-01-02 10.804867
2017-01-03 0.001716
2017-01-04 4.534989
2017-01-05 2.201338
... ...
2017-12-27 4.503725
2017-12-28 2.145087
2017-12-29 13.519627
2017-12-30 8.123391
2017-12-31 14.621106
[365 rows x 1 columns]
通过在axis=1
上重复,您可以将默认的range(24)
列名转换为每小时timediffs
# repeat,then stack
hourly = pd.DataFrame(np.repeat(weather.values,24,axis=1),index=weather.index).stack()
# combine date and hour
hourly.index = (
hourly.index.get_level_values(0) +
pd.to_timedelta(hourly.index.get_level_values(1),unit='h')
)
hourly = hourly.rename('WEATHER_MAX').to_frame()
输出
WEATHER_MAX
2017-01-01 00:00:00 6.255330
2017-01-01 01:00:00 6.255330
2017-01-01 02:00:00 6.255330
2017-01-01 03:00:00 6.255330
2017-01-01 04:00:00 6.255330
... ...
2017-12-31 19:00:00 14.621106
2017-12-31 20:00:00 14.621106
2017-12-31 21:00:00 14.621106
2017-12-31 22:00:00 14.621106
2017-12-31 23:00:00 14.621106
[8760 rows x 1 columns]
,
做什么和原因与@RichieV的答案相同。
但是,要使用的值不是0或无意义的值,有必要使用2018年1月1日实际测得的有效数据。
这是因为使用无意义的值会降低重新采样的2017-12-31数据以及使用该数据得出的结果的有效性。
- 在数据末尾为2018年1月1日准备一个有效值。
- 致电重新抽样。
- 重新采样后删除2018年1月1日的数据。
- 您将获得2017年的8670条数据。
看看@RichieV的修改答案:
我误会了这个问题。
我的答案是用插值等补充重采样。
resampleを用いた外挿 (データ補間) を行いたい
如果可以将当天的00:00设为相同的值,那将是另一种思维方式。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。