我们如何从Apache Spark读取非常大的xml文件？

如何解决我们如何从Apache Spark读取非常大的xml文件？

我想在Spark上读取非常大的xml文件数据集（每个xml文件大小= 1TB），并对每个文件启动解析过程，以便最终将csv文件作为表。

我知道我们可以在Hadoop中使用StreamXmlRecordReader并处理xml，然后从spark中使用HDFS中的xml数据块，也可以从databricks中使用spark-xml库，使用java Mahout XmlInputFormat（Hadoop）解析xml，一些说对于大型xml文件，hadoop方法更好，因此需要了解解决此问题的最佳方法