我有这个pandas数据帧
BU | DATA1 DATA2
01-TT zone 01 noData
02-FF noData zone 02
....
我需要用BU列中的相应行替换“noData”字符串,但只使用两个第一个字符并添加“zone”字
BU | DATA1 DATA2
01-TT zone 01 zone 01
02-FF zone 02 zone 02
....
非常感谢
解决方法:
您可以使用mask
替换numpy.repeat
创建的numpy数组的True值:
df = df.set_index('BU')
arr = np.repeat('zone ' + df.index.str[:2], len(df.columns)).values.reshape(df.shape)
print (arr)
[['zone 01' 'zone 01']
['zone 02' 'zone 02']]
df = df.mask(df == 'noData', arr)
print (df.reset_index())
BU DATA1 DATA2
0 01-TT zone 01 zone 01
1 02-FF zone 02 zone 02
时序:
#[20000 rows x 3 columns]
df = pd.concat([df]*10000).reset_index(drop=True)
print (df)
df1 = df.copy()
def jez(df):
df = df.set_index('BU')
df = df.mask(df == 'noData', np.repeat('zone ' + df.index.str[:2], len(df.columns)).values.reshape(df.shape))
return (df.reset_index())
def ed(df):
cols = df.columns[df.columns.str.contains('DATA')]
df[cols] = df[cols].mask(df[cols].apply(lambda x: x.str.contains('noData')), 'zone ' + df['BU'].str[:2], axis=0)
return df
print (jez(df))
print (ed(df1))
In [219]: %timeit (jez(df))
100 loops, best of 3: 14.2 ms per loop
In [220]: %timeit (ed(df1))
10 loops, best of 3: 46.3 ms per loop
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。