通过训练集的平均值填充组中测试的缺失值

如何解决通过训练集的平均值填充组中测试的缺失值

我有两个数据框，train 和 test。 test 集的列上有缺失值。

import numpy as np
import pandas as pd

train = [[0,1],[0,2],3],7],[1,5],2]]
test = [[0,0],np.nan],np.nan]]

train = pd.DataFrame(train,columns = ['A','B'])
test = pd.DataFrame(test,'B'])

测试集在 B 列上有两个缺失值。如果 groupby 列是 A

如果插补策略为 mode，则应使用 7 和 2 对缺失值进行插补。
如果插补策略为 mean，则缺失值应为 (1+2+3+7+7)/5 = 4 和 (3+5+2+2)/4 = 3。

这样做的好方法是什么？

此 question 是相关的，但仅使用一个数据帧而不是两个。

解决方法

IIUC，这是一种方法：

from statistics import mode

test_mode = test.set_index('A').fillna(train.groupby('A').agg(mode)).reset_index()
test_mean = test.set_index('A').fillna(train.groupby('A').mean()).reset_index()

如果你想要一个函数：

from statistics import mode

def evaluate_nan(strategy= 'mean'):
    return test.set_index('A').fillna(train.groupby('A').agg(strategy)).reset_index()

test_mean = evaluate_nan()
test_mode = evaluate_nan(strategy = mode)