微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

数据框使用正则表达式从字符串中提取一年

如何解决数据框使用正则表达式从字符串中提取一年

给定一个带有字符串的数据框,例如“这篇文章发表于 © 2001 by ...”,我想提取年份并将其存储到另一列

我已经试过了

df['year'] = df['abstract'].str.extract('.*([1-3][0-9]{3})',expand=False)

还有这个

df['year'] = df['abstract'].apply(labmda x : re.match('.*([1-3][0-9]{3})',x) 

但两个结果都是吐NaN

我尝试了不同的正则表达式,例如 '^\d{4}$',但结果仍然是 NaN 值。不太清楚哪里出错了,希望得到其他人的见解


更新

解决了这个问题。我用过这个

match = re.search('(©\s)(\d{4})',i)
year = match.group(2) if match else None
yearList.append(year)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。