如何解决使用正则表达式过滤 pyspark.RDD
我有一个 pyspark.RDD,其中包含我想过滤掉的日期。日期以这种形式出现在我的 RDD 中:
data.collect() = ["Nujabes","Hip Hop","04:45 16 October 2018"]
我一直在尝试使用以下方法通过正则表达式过滤掉这些:
r"[0-9]{2}:[0-9]{2} [0-9]{2} [A-Z][a-z]+ [0-9]{4}"
但我做错了:
data = data.filter(lambda x: x != r"[0-9]{2}:[0-9]{2} [0-9]{2} [A-Z][a-z]+ [0-9]{4}")
对于上面给定的 data
,所需的输出是
data.collect() = ["Nujabes","Hip Hop"]
解决方法
您可以使用 Python 正则表达式进行过滤:
data2 = data.filter(lambda x: not re.match(r"[0-9]{2}:[0-9]{2} [0-9]{2} [A-Z][a-z]+ [0-9]{4}",x))
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。