我有一个数据帧:
df = pd.DataFrame({'c':[0,1,2,2],'date':pd.to_datetime(['2016-01-01','2016-02-01','2016-03-01','2016-04-01','2016-05-01','2016-06-01'])})
对于每一行,我想得到一个数字=每个日期的月数(Jan = 1,Feb = 2等)该组的长度(第一组有1个成员,第2组有2个等):
所以它应该返回类似的东西:
c date num 0 2016-01-01 2 1 2016-02-01 4 1 2016-03-01 5 2 2016-04-01 7 2 2016-05-01 8 2 2016-06-01 9
def testlambda(x): print(x) return x.dt.month.astype('int') + len(x)
并使用groupby转换:
df['num'] = df.groupby(['c'])['date'].transform(lambda x: testlambda(x))
但是返回的新列仍然是日期格式,即使我的lambda返回int.
该怎么办?
解决方法
尝试使用DataFrameGroupBy.transform()而不是SeriesGroupBy.transform(),因为后者试图将结果强制转换为源dtype:
In [131]: def testlambda(x): ...: #print(x) ...: return x.dt.month.astype('int') + len(x) ...: In [132]: df Out[132]: c date 0 0 2016-01-01 1 1 2016-02-01 2 1 2016-03-01 3 2 2016-04-01 4 2 2016-05-01 5 2 2016-06-01 # v v - thats's the only difference In [133]: df['num'] = df.groupby(['c'])[['date']].transform(lambda x: testlambda(x)) In [134]: df Out[134]: c date num 0 0 2016-01-01 2 1 1 2016-02-01 4 2 1 2016-03-01 5 3 2 2016-04-01 7 4 2 2016-05-01 8 5 2 2016-06-01 9
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。