如何解决筛选前两个字符为大写的列值
我正在尝试使用Pyspark过滤表,其中一个列的所有值的所有前两个字符都以两个大写字母开头,例如'UTrecht','NEw York'等
这是我尝试过的,但是完全失败了:
=IFERROR(
IF(
Month End="Y",((IFERROR(IF(01/2020=Report Month,249 - GT,249),""))-Open),IFERROR(IF(01/2020=Report Month,"")
),""
)
我也尝试过:
df_filtered=df.filter(F.col("column_name").isUpper())
这导致了以下错误:
filter()接受2个位置参数,但给出了3个
我是Pyspark的相对新手,因此任何建议都将不胜感激。
提前谢谢!
解决方法
您可以使用substr函数和如下所示的upper函数来查看substr是否为上层
如果该子字符串带有substr
,则将upper(F.col("test").substr(1,2))
的前两个字母与大写版本进行比较,并将其过滤为
df.filter(
F.col("test").substr(1,2) == F.upper(F.col("test").substr(1,2))
).show()
如果您想要更大的灵活性,(但是这不是通往i的最好方法),您可以使用udf,它使用python isupper()函数返回True / False。
from pyspark.sql.functions import udf
from pyspark.sql.types import BooleanType
upp = udf(lambda x: x[0:2].isupper() if x!= None else False,BooleanType())
df.filter(upp('affiliation_city')).show()
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。