如何解决与当前行列匹配的先前记录的 Pandas 时间序列总和
我正在尝试添加一个列,该列表示与给定列的行的当前值匹配的先前记录的累积总和,让我们举个例子。
我的数据是:
|t |label|qty|cumsum|
|2020-01-05|A |10 |10 |
|2020-01-06|B |5 |5 |
|2020-01-06|C |2 |2 |
|2020-01-07|A |-5 |5 |
|2020-01-07|A |2 |7 |
|2020-01-08|B |-30|-25 |
|2020-01-09|C |5 |7 |
cumsum
列将总结为“对标签与当前行相同的所有过去记录进行累计总和”
理想情况下,为了代码清晰,我想要一个表达式,例如 df['cumsum']=df.loc[(df['label']==current label) & (df['t'] <= current index)].cumsum()
,它不会显式循环 for ix,row in df:
中的每一列
另一方面是累积和是从一开始就完成的,数据帧可能是 20 条记录长或 500k 条记录长。
另外,为了清楚起见,我在示例中只放置了 3 个标签,但我的数据集中可以有几十个标签
我发现了一些其他类似的问题,但它们并不完全适合我的需要:
-
Python Pandas: Cumulative Sum based on multiple conditions => 它“只是”计算过去条件成立的次数,而不是特定列的累积总和
-
Pandas temporal cumulative sum by group => 不为数据帧的每一行保持记录“实时”
欢迎任何形式的帮助! 谢谢!
解决方法
df.groupby('label')['qty'].transform('cumsum')
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。