Spark未加载文件夹中的所有文件

如何解决Spark未加载文件夹中的所有文件

我试图从一个文件夹中加载多个 JSON 文件，每个文件都以一个数字结尾，所以我在路径中使用了通配符 (*)，以便 spark 会一一读取。

spark 跳过几个文件而不加载所有文件。

raw_assignments = spark.read.option("multiline","true").json(r"Assignments_*.json")

assignments_df_all = raw_assignments.select("*").withColumn("page",input_file_name()).createOrReplaceTempView("check_files")

spark.sql("select distinct substring(page,90)  from check_files").show()

低于输出

+-------------------------------+
|substring(page,85,2147483647)|
+-------------------------------+
|             Assignments_6.json|
|            Assignments_24.json|
|             Assignments_5.json|
|            Assignments_14.json|
|            Assignments_17.json|
|             Assignments_9.json|
|            Assignments_13.json|
|             Assignments_1.json|
|             Assignments_7.json|
|             Assignments_8.json|
|            Assignments_23.json|
+-------------------------------+

我不明白为什么 spark 跳过文件，我手动加载了每个文件以查看这些文件中是否有任何损坏并且所有文件都是有效文件。