如何解决Spark未加载文件夹中的所有文件
我试图从一个文件夹中加载多个 JSON 文件,每个文件都以一个数字结尾,所以我在路径中使用了通配符 (*),以便 spark 会一一读取。
raw_assignments = spark.read.option("multiline","true").json(r"Assignments_*.json")
assignments_df_all = raw_assignments.select("*").withColumn("page",input_file_name()).createOrReplaceTempView("check_files")
spark.sql("select distinct substring(page,90) from check_files").show()
低于输出
+-------------------------------+
|substring(page,85,2147483647)|
+-------------------------------+
| Assignments_6.json|
| Assignments_24.json|
| Assignments_5.json|
| Assignments_14.json|
| Assignments_17.json|
| Assignments_9.json|
| Assignments_13.json|
| Assignments_1.json|
| Assignments_7.json|
| Assignments_8.json|
| Assignments_23.json|
+-------------------------------+
我不明白为什么 spark 跳过文件,我手动加载了每个文件以查看这些文件中是否有任何损坏并且所有文件都是有效文件。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。