如何解决熊猫按时间和组滚动条件总和
在 Python/Pandas 中,我显然有一项艰巨的任务要做。
| DATETIME | PRODUCT | AMOUNT |
我需要为每个产品(我有两个以上的产品)生成最后一列,其中包含过去 5 分钟内(假设已售出的产品)数量的累计总和。请参见以下示例:
| DATETIME | PRODUCT | AMOUNT | CUM SUM |
| 2020-01-01 17:10:00 | A | 20 | 20 -> 20 |
| 2020-01-01 17:12:00 | B | 30 | 30 -> 30 |
| 2020-01-01 17:13:00 | A | 10 | 20+10 -> 30 |
| 2020-01-01 17:13:00 | A | 15 | 20+10+15 -> 45 |
| 2020-01-01 17:16:00 | B | 10 | 30+10 -> 40 |
| 2020-01-01 17:17:00 | A | 15 | 10+15+15 -> 40 |
| 2020-01-01 17:20:00 | B | 20 | 10+20 -> 30 |
| 2020-01-01 17:20:00 | B | 10 | 10+20+10 -> 40 |
| 2020-01-01 17:25:00 | A | 10 | 10 -> 10 |
请注意,对(日期时间、产品)可能不是唯一的,但是我仍然必须根据数据帧索引保持顺序。
我尝试过:
- 滚动功能:但不幸的是,我没有固定的窗口大小,而且我没有唯一的对(日期时间、产品),所以我不能使用日期时间作为索引然后使用
.rolling('5 minutes')
。 -
Groupby(product).cumsum()
:但我无法将总数限制在最后几分钟。
可能,我需要一些平滑且性能水平不算太差的东西,以应用于相当大的 df 。
你有什么提示吗?
提前致谢。
解决方法
您可以按时间窗口(5 分钟 == '5T')和 pd.DataFrame.groupby
使用 groupby.apply
、pd.DataFrame.rolling
、rolling.sum
:
>>> df['CUM SUM'] = (df.set_index('DATETIME')
.groupby('PRODUCT')
.apply(lambda x: x.rolling('5T').sum()
).values)
DATETIME PRODUCT AMOUNT CUM SUM
0 2020-01-01 17:10:00 A 20 20.0
1 2020-01-01 17:12:00 B 30 30.0
2 2020-01-01 17:13:00 A 10 30.0
3 2020-01-01 17:13:00 A 15 45.0
4 2020-01-01 17:16:00 B 10 40.0
5 2020-01-01 17:17:00 A 15 40.0
6 2020-01-01 17:20:00 B 20 30.0
7 2020-01-01 17:20:00 B 10 40.0
8 2020-01-01 17:25:00 A 10 10.0
我正在添加确切的步骤,看看你是否能发现你的 df 有什么不同:
>>> from io import StringIO
>>> df = pd.read_csv(StringIO("""
DATETIME PRODUCT AMOUNT
2020-01-01 17:10:00 A 20
2020-01-01 17:12:00 B 30
2020-01-01 17:13:00 A 10
2020-01-01 17:13:00 A 15
2020-01-01 17:16:00 B 10
2020-01-01 17:17:00 A 15
2020-01-01 17:20:00 B 20
2020-01-01 17:20:00 B 10
2020-01-01 17:25:00 A 10"""),sep=r'\s\s+')
>>> df['DATETIME'] = pd.to_datetime(df['DATETIME'])
>>> df
DATETIME PRODUCT AMOUNT
0 2020-01-01 17:10:00 A 20
1 2020-01-01 17:12:00 B 30
2 2020-01-01 17:13:00 A 10
3 2020-01-01 17:13:00 A 15
4 2020-01-01 17:16:00 B 10
5 2020-01-01 17:17:00 A 15
6 2020-01-01 17:20:00 B 20
7 2020-01-01 17:20:00 B 10
8 2020-01-01 17:25:00 A 10
>>> df['CUM SUM'] = (df.set_index('DATETIME')
.groupby('PRODUCT')
.apply(lambda x: x.rolling('5T').sum()
).values)
>>> df
DATETIME PRODUCT AMOUNT CUM SUM
0 2020-01-01 17:10:00 A 20 20.0
1 2020-01-01 17:12:00 B 30 30.0
2 2020-01-01 17:13:00 A 10 30.0
3 2020-01-01 17:13:00 A 15 45.0
4 2020-01-01 17:16:00 B 10 40.0
5 2020-01-01 17:17:00 A 15 40.0
6 2020-01-01 17:20:00 B 20 30.0
7 2020-01-01 17:20:00 B 10 40.0
8 2020-01-01 17:25:00 A 10 10.0
我注意到我错过了值后的右括号,已修复。
编辑
这适用于 pandas 1.2.0
,适用于 `pandas 1.0.5':
>>> df['CUM SUM'] = (df.set_index('DATETIME')
.groupby('AMOUNT')
.apply(lambda x: x.rolling('5T').sum().reset_index(drop=True))
.values)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。