在双时态数据集上计算移动平均

如何解决在双时态数据集上计算移动平均

我正在尝试计算双时态数据集的移动平均值。数据集由数据日期和生效日期（数据可用的日期）组成。该日期的数据可以在未来多次重述（相同的数据日期但不同的生效日期）。我需要使用对正在计算的行的生效日期有效的数据来计算过去 4 个季度的移动平均值。

数据集看起来像这样

id	数据日期	生效	价值
1	2005-03-31	2005-04-15	10
1	2005-03-31	2005-05-30	11
1	2005-06-30	2005-07-15	9
1	2005-06-30	2005-08-20	9.5
1	2005-06-30	2005-10-15	9.6
1	2005-09-30	2005-10-15	10.5
1	2005-09-30	2005-11-10	11
1	2005-09-30	2006-02-20	10.75
1	2005-12-31	2006-02-13	12
1	2005-12-31	2006-02-20	11.6
1	2005-12-31	2006-05-10	11
1	2006-03-31	2006-04-20	8
1	2006-03-31	2006-05-10	8.25

结果应该是

	id	数据日期	生效	价值	平均
0	1	2005-03-31	2005-04-15	10	10
1	1	2005-03-31	2005-05-30	11	11
2	1	2005-06-30	2005-07-15	9	10
3	1	2005-06-30	2005-08-20	9.5	10.25
4	1	2005-06-30	2005-10-15	9.6	10.30
5	1	2005-09-30	2005-10-15	10.5	10.37
6	1	2005-09-30	2005-11-10	11	10.53
7	1	2005-09-30	2006-02-20	10.75	10.45
8	1	2005-12-31	2006-02-13	12	10.9
9	1	2005-12-31	2006-02-20	11.5	10.71
10	1	2005-12-31	2006-05-10	11	10.59
11	1	2006-03-31	2006-04-20	8	9.96
12	1	2006-03-31	2006-05-10	8.25	9.9

我正在使用 Pandas 在 python 中执行此操作。我这样做的方法是在 id 和前 4 个季度将数据框与自身连接，并根据过去 4 个季度的 effdates 计算所有时期的新 effdates，然后我再次加入 id、datadate 和 effdate 并计算平均值。

keys["id"]
calc_df = df1.merge(df2,on=keys,how='left')
calc_df = calc_df.loc[
            (calc_df["datadate_x"] >= calc_df["datadate_y"])
            & (calc_df["datadate_y"] >= calc_df["datadate_x"] - pd.tseries.offsets.MonthEnd(n=9))
            & (calc_df["effdate_x"] <= calc_df["thrudate_y"])
            & (calc_df["thrudate_x"] >= calc_df["effdate_y"])
        ]
calc_df = calc_df.drop_duplicates().reset_index(drop=True)
grp_keys = keys + ["datadate_x"]
calc_df["effdate"] = calc_df[["effdate_x","effdate_y"]].max(axis=1)
calc_df = calc_df.sort_values(grp_keys + ["effdate"]).drop_duplicates(
            subset=grp_keys + ["effdate"],keep="first"
        )
calc_df = calc_df['id','datadate_x','effdate','value']

calc_df = calc_df.merge(df1,on=["id"],how="left")
calc_df = calc_df.loc[
            (calc_df["datadate_x"] >= calc_df["datadate"])
            & (
                calc_df["datadate"]
                >= calc_df["datadate_x"] - pd.tseries.offsets.MonthEnd(n=9)
            )
            & (calc_df["effdate_x"] <= calc_df["thrudate_y"])
            & (calc_df["thrudate_x"] >= calc_df["effdate_y"])
        ]

        
calc_df["MAvg"] = calc_df.groupby(["id","datadate_x","effdate_x"])["value"].transform(
            lambda s: s.mean(skipna=False)
        )

这有效，但当我在完整数据集上运行它时非常慢，该数据集从 2000 年到最近一个季度（大约 500K 行）有大约 2000 个不同的 ID 和数据日期，我必须计算不同字段的移动平均值视窗。所以我想看看有没有有效的方法来做到这一点。

解决方法

目前尚不清楚该问题的答案是什么，因为您只要求“更好”，而您没有指明您希望此改进位于哪个轴上.

所以我会为您提供更好的可读性方面的内容。这可能有助于其他人找到其他方向的改进：

鉴于 csv data.csv：

datadate,effdate,value
2005-03-31,2005-04-15,10
2005-03-31,2005-05-30,11
2005-06-30,2005-07-15,9
2005-06-30,2005-08-20,9.5
2005-06-30,2005-10-15,9.6
2005-09-30,10.5
2005-09-30,2005-11-10,11
2005-09-30,2006-02-20,10.75
2005-12-31,2006-02-13,12
2005-12-31,11.5
2005-12-31,2006-05-10,11
2006-03-31,2006-04-20,8
2006-03-31,8.25

您可以通过执行以下操作获得相同的结果：

import pandas as pd

data = pd.read_csv('data.csv').sort_values(by=["effdate"])


def moving_avg(df,quarters):
    df = df[
        df.index <= df.last_valid_index
    ].drop_duplicates(subset="datadate",keep="last").tail(quarters)
    return df["value"].sum() / df["value"].count()


print(data.assign(MAvg=[moving_avg(d,4) for d in data.expanding()]).sort_index())

这提供：

      datadate     effdate  value       MAvg
0   2005-03-31  2005-04-15  10.00  10.000000
1   2005-03-31  2005-05-30  11.00  11.000000
2   2005-06-30  2005-07-15   9.00  10.000000
3   2005-06-30  2005-08-20   9.50  10.250000
4   2005-06-30  2005-10-15   9.60  10.300000
5   2005-09-30  2005-10-15  10.50  10.366667
6   2005-09-30  2005-11-10  11.00  10.533333
7   2005-09-30  2006-02-20  10.75  10.450000
8   2005-12-31  2006-02-13  12.00  10.900000
9   2005-12-31  2006-02-20  11.50  10.712500
10  2005-12-31  2006-05-10  11.00  10.587500
11  2006-03-31  2006-04-20   8.00   9.962500
12  2006-03-31  2006-05-10   8.25   9.900000