微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在缺少日期的情况下计算移位和滚动总和而不将其添加到Pandas的数据框中?

如何解决如何在缺少日期的情况下计算移位和滚动总和而不将其添加到Pandas的数据框中?

我有一个包含日期,客户和收入的数据集:

    Date    CustomerIncome
0   1/1/2018    A   53
1   2/1/2018    A   36
2   3/1/2018    A   53
3   5/1/2018    A   89
4   6/1/2018    A   84
5   8/1/2018    A   84
6   9/1/2018    A   54
7   10/1/2018   A   19
8   11/1/2018   A   44
9   12/1/2018   A   80
10  1/1/2018    B   24
11  2/1/2018    B   100
12  9/1/2018    B   40
13  10/1/2018   B   47
14  12/1/2018   B   10
15  2/1/2019    B   5

这两个客户都缺少日期,因为他们几个月没有购买任何东西。 我想为每个客户添加上个月的收入以及上一年的收入总和。 意思是,如果缺少月份,我将在下个月有收入的shift(1)列看到“ 0”。即使没有12个观测值,我也会看到12个月的滚动总和。

这是预期的结果:

  Date  CustomerIncome  S(1)R(12)
0   1/1/2018    A   53  0   53
1   2/1/2018    A   36  53  89
2   3/1/2018    A   53  36  142
3   5/1/2018    A   89  0   231
4   6/1/2018    A   84  89  315
5   8/1/2018    A   84  0   399
6   9/1/2018    A   54  84  453
7   10/1/2018   A   19  54  472
8   11/1/2018   A   44  19  516
9   12/1/2018   A   80  44  596
10  1/1/2018    B   24  0   24
11  2/1/2018    B   100 24  124
12  9/1/2018    B   40  0   164
13  10/1/2018   B   47  40  211
14  12/1/2018   B   10  0   221
15  2/1/2019    B   5   0   102

到目前为止,我已经添加了具有缺少日期的行(具有堆栈和取消堆栈),但是具有多个日期和客户,它会将数据爆炸到数百万行,崩溃的内核中大多数行为0。

解决方法

  1. 您可以使用.shift,但有逻辑,如果间隔> 31天,则使(S1) = 0
  2. 滚动12的计算需要弄清楚“滚动日期”并进行一些复杂的列表理解,以决定是否返回值。然后,对每行的每个列表求和。

df['Date'] = pd.to_datetime(df['Date']).dt.date
df['S(1)'] = df.groupby('Customer')['Income'].transform('shift').fillna(0)
s = (df['Date'] - df['Date'].shift())/np.timedelta64(1,'31D') <= 1
df['S(1)'] = df['S(1)'].where(s,0).astype(int)
df['Rolling Date'] = (df['Date'] - pd.Timedelta('1Y'))
df['R(12)'] = df.apply(lambda d: sum([z for x,y,z in 
                                      zip(df['Customer'],df['Date'],df['Income']) 
                                      if y > d['Rolling Date'] 
                                      if y <= d['Date'] 
                                      if x == d['Customer']]),axis=1)
df = df.drop('Rolling Date',axis=1)
df
Out[1]: 
          Date Customer  Income  S(1)  R(12)
0   2018-01-01        A      53     0     53
1   2018-02-01        A      36    53     89
2   2018-03-01        A      53    36    142
3   2018-05-01        A      89     0    231
4   2018-06-01        A      84    89    315
5   2018-08-01        A      84     0    399
6   2018-09-01        A      54    84    453
7   2018-10-01        A      19    54    472
8   2018-11-01        A      44    19    516
9   2018-12-01        A      80    44    596
10  2018-01-01        B      24     0     24
11  2018-02-01        B     100    24    124
12  2018-09-01        B      40     0    164
13  2018-10-01        B      47    40    211
14  2018-12-01        B      10     0    221
15  2019-02-01        B       5     0    102

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。