大熊猫根据条件重新采样和聚合

如何解决大熊猫根据条件重新采样和聚合

我有一个DataFrame，其中有一个状态如下的列：

datetime               |    session    |    try       |    status
2020-09-17 10:00:01    |    '1a'       |    '1a_1'    |    'success'
2020-09-17 10:00:02    |    '2a'       |    '2a_1'    |    'fail'
2020-09-17 10:00:03    |    '2a'       |    '2a_2'    |    'success'
2020-09-17 10:00:03    |    '3a'       |    '3a_1'    |    'interrupted'
2020-09-18 13:00:04    |    '4a'       |    '4a_1'    |    'fail'

我想按天重新采样数据，并根据会话中的条件计数状态类型（而不是尝试）。

我可以像这样通过尝试轻松对其进行重采样：

df['date'] = df['datetime'].dt.date
df['ones'] = np.ones(df.shape[0])
piv = df.pivot_table(index='date',columns='status',values='ones',aggfunc=len).fillna(0)

并拥有：

day           |    success    |    fail    |    interrupted
2020-09-17    |    2          |    2       |    1
2020-09-18    |    0          |    1       |    0

但是无论会话尝试多少，我都希望按条件将其聚合。

如果会话中的“成功”状态尝试，则成功+1，失败+0，中断+0；
如果会话中的状态为“中断”，而会话中的状态为“不成功”，则表示成功+0，失败+0，中断+1；
如果会话中没有“中断”和“成功”状态，则成功+0，失败+1，中断+0。

所以我应该得到这样的东西：

day           |    success    |    fail    |    interrupted
2020-09-17    |    2          |    0       |    1
2020-09-18    |    0          |    1       |    0

我坚持使用函数，最后得出的结论都是“ ValueError：系列的真值不明确”。任何想法我都会非常高兴。

解决方法

我的想法是将statust的值转换为有序类别，仅对传递给参数categories的列表中定义的最重要的值进行排序并获取行：

print (df)
             datetime session   try       status
0 2020-09-17 10:00:01      1a  1a_1      success
1 2020-09-17 10:00:02      2a  2a_1         fail
2 2020-09-17 10:00:03      2a  2a_2      success
3 2020-09-17 10:00:03      3a  3a_1  interrupted
4 2020-09-18 13:00:04      4a  4a_1         fail
5 2020-09-19 10:00:01      1a  1a_1  interrupted
6 2020-09-19 10:00:02      1a  2a_1         fail
7 2020-09-19 10:00:03      2a  2a_2      success
8 2020-09-19 10:00:03      2a  3a_1  interrupted

df['status'] = pd.Categorical(df['status'],ordered=True,categories=['success','interrupted','fail'])
df['date'] = df['datetime'].dt.date

df1 = df.sort_values(['date','status']).drop_duplicates(['date','session'])
print (df1)
             datetime session   try       status        date
0 2020-09-17 10:00:01      1a  1a_1      success  2020-09-17
2 2020-09-17 10:00:03      2a  2a_2      success  2020-09-17
3 2020-09-17 10:00:03      3a  3a_1  interrupted  2020-09-17
4 2020-09-18 13:00:04      4a  4a_1         fail  2020-09-18
7 2020-09-19 10:00:03      2a  2a_2      success  2020-09-19
5 2020-09-19 10:00:01      1a  1a_1  interrupted  2020-09-19

piv = pd.crosstab(df1['date'],df1['status'])
print (piv)
status      success  interrupted  fail
date                                  
2020-09-17        2            1     0
2020-09-18        0            0     1
2020-09-19        1            1     0

pandas有很多汇总信息的方式。这里的一种选择是使用groupby。我喜欢这种方法，因为它非常健壮-另一个答案概述了使用crosstab的一种非常优雅的方法，但是我想知道它的可扩展性。

请注意，您对所需内容的描述似乎与示例输出不匹配-您提到要按会话而不是日期进行汇总。使用这种方法很容易做到这两种方法。

def count_successes(x):

    s = list(x)

    return len([i for i in s if i == "success"])

def count_interrupteds(x):

    s = list(x)

    if "success" in s:
        return 0

    return len([i for i in s if i == "interrupted"])

def count_failures(x):

    s = list(x)

    if "success" in s:
        return 0
    
    if "interrupted" in s:
        return 0

    return len([i for i in s if i == "fail"])
    
    

df["date"] = df.datetime.dt.date

result = (
  df.groupby("date",as_index=False)
    .status
    .agg({ 
      "success": count_successes,"fail": count_failures,"interrupted": count_interrupteds,})
)

这将产生示例输出。您可以看到我定义的用于生成每一列的函数非常简单，但是可能会变得任意复杂。

要每天按会话分组，请使用groupby(["date","session"]代替groupby("date"。

大熊猫根据条件重新采样和聚合

如何解决大熊猫根据条件重新采样和聚合

解决方法

相关推荐