如何解决数据框使用正则表达式从字符串中提取一年
给定一个带有字符串的数据框,例如“这篇文章发表于 © 2001 by ...”,我想提取年份并将其存储到另一列
我已经试过了
df['year'] = df['abstract'].str.extract('.*([1-3][0-9]{3})',expand=False)
还有这个
df['year'] = df['abstract'].apply(labmda x : re.match('.*([1-3][0-9]{3})',x)
但两个结果都是吐NaN
我尝试了不同的正则表达式,例如 '^\d{4}$'
,但结果仍然是 NaN 值。不太清楚哪里出错了,希望得到其他人的见解
更新
解决了这个问题。我用过这个
match = re.search('(©\s)(\d{4})',i)
year = match.group(2) if match else None
yearList.append(year)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。