如何解决Pyspark 错误:读取 tsv.gz 数据帧每次读取 0 行,即使源中有行
我有以下代码;
test_df = (spark.read
.schema(newSchema)
.option("header","true")
.option("delimiter","\t").csv("wasbs://container@AzureStorageAcc.blob.core.windows.net/dir1/dir2/2021/02/05/"))
但这似乎不起作用。有没有其他方法可以将 tsv.gz 作为火花数据帧读取?
解决方法
尝试从您的命令中删除 list_ids
,这仅适用于 structured streaming,我怀疑它可能会干扰 .format("cloudFiles")
。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。