使用 python rasterio 和 pyspark

如何解决使用 python rasterio 和 pyspark

我正在使用 python Rasterio 处理 tif 图像，为了加快速度，我也使用了 spark，我的示例代码如下

import Rasterio
from pyspark.sql import SparkSession


def customFunction1(row,dem):
  #print(row)
  x = row.split("|")
  latitude = float(x[2])
  longitude = float(x[3])
  row,col = dem.index(longitude,latitude)
  dem_data = dem.read(1)
  return dem_data[row,col]

spark = SparkSession \
.builder \
.appName("Python Spark Rasterio") \
.config("spark.some.config.option","some-value") \
.getorCreate()


rddFromFile = spark.sparkContext.textFile("file.csv")
with Rasterio.open('1.tif') as src:
  sample2 = rddFromFile.map(lambda row: customFunction1(row,src))
  sample2.saveAsTextFile("new.csv")

当我运行上面的代码时出现错误“无法序列化对象：TypeError：self._hds 无法转换为 Python 对象进行酸洗”

似乎光栅不支持火花并行处理。有没有其他方法可以做到这一点，因为我需要处理大量数据。我可以用来处理数百万条记录的其他库的任何建议。任何帮助表示赞赏。