微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用datetime加速pandas中lambda的apply方法

我是熊猫的新手.

我有一个非常简单的数据框,名为dlf,带有索引,两列有40k行.它被加载如下:

d = pd.DataFrame.from_csv(csvsLocation + 'name.csv', index_col='ID', infer_datetime_format=True)
d['LAST'] = pd.to_datetime(d['LAST'], format = '%d-%b-%y')
d['FirsT'] = pd.to_datetime(d['FirsT'], format = '%d-%b-%y')
dlf = d[['LAST', 'FirsT']]

它看起来像这样:

    LAST    FirsT
ID      
1   1997-04-17  1991-10-04
3   2009-02-13  1988-07-07
5   2009-10-24  1995-12-06
6   1996-04-31  1989-03-14

运行此apply方法需要5秒钟:

year = 1997
dlf[str(year)] = dlf.apply(lambda row: 1*(year >= row['FirsT'].year and year <= row['LAST'].year), axis=1)

我需要加速,因为我打算运行数百次.

我怀疑问题在于使用lambda.

我做错了什么,和/或我怎样才能加快速度?

解决方法:

您可以在两个日期列中通过dt.year访问年份:

year = 1999
df[str(year)] = 1 * ((df['FirsT'].dt.year <= year) & (df['LAST'].dt.year >= year))
print(df)

输出

         LAST      FirsT  1999
ID                            
1  1997-04-17 1991-10-14     0
3  2009-02-13 1988-07-07     1
5  2009-10-24 1995-10-06     1
6  1996-04-30 1969-03-14     0

你也可以保留布尔值作为结果:

df[str(year)] = (df['FirsT'].dt.year <= year) & (df['LAST'].dt.year >= year)
print(df)

输出

         LAST      FirsT   1999
ID                             
1  1997-04-17 1991-10-14  False
3  2009-02-13 1988-07-07   True
5  2009-10-24 1995-10-06   True
6  1996-04-30 1969-03-14  False

性能

测量性能总是很有趣.但测量可能很棘手.如果我们只使用带有4行的微小示例数据帧,事情就会变慢一些:

%timeit dlf[str(year)] = dlf.apply(lambda row: 1*(year >= row['FirsT'].year and year <= row['LAST'].year), axis=1)

1000 loops, best of 3: 1.27 ms per loop


%timeit df[str(year)] = 1 * ((df['FirsT'].dt.year <= year) & (df['LAST'].dt.year >= year))

100 loops, best of 3: 1.7 ms per loop

但是让我们来看看40k行:

big = pd.concat([df] * 10000)

>>> big.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 40000 entries, 1 to 6
Data columns (total 4 columns):
LAST     40000 non-null datetime64[ns]
FirsT    40000 non-null datetime64[ns]
1999     40000 non-null bool
1997     40000 non-null int64
dtypes: bool(1), datetime64[ns](2), int64(1)
memory usage: 1.3 MB

现在我们可以看到显着的加速:

%timeit big[str(year)] = big.apply(lambda row: 1*(year >= row['FirsT'].year and year <= row['LAST'].year), axis=1)

1 loops, best of 3: 6.51 s per loop

%timeit big[str(year)] = 1 * ((big['FirsT'].dt.year <= year) & (big['LAST'].dt.year >= year))

100 loops, best of 3: 8.33 ms per loop

这大约快780倍.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐