在pyspark RDD上执行map / reduce时出现错误

如何解决在pyspark RDD上执行map / reduce时出现错误

我只是想学习PySpark，但对以下两个RDD之间的区别感到困惑，我知道一个是类型集，一个是列表，但都是RDD

rdd = sc.parallelize([('a',1),('b',('a',3)])
type(rdd)

和

rdd = sc.parallelize(['a,1','b,'a,3'])
type(rdd)

用于处理地图和约简功能的代码：

priceMap= s.map(lambda o: (o.split(",")[0],float(o.split(",")[1])))
priceMap.reduceByKey(add).take(10)

我可以轻松地对第二个rdd数据执行map / reduce函数，但是当我尝试执行地图或简化时，出现以下错误：那么我们如何将第一个rdd转换为第二个rdd数据，或者有什么办法可以解决以下错误，请帮忙。谢谢

Py4JJavaError：调用时发生错误 z：org.apache.spark.api.python.PythonRDD.runJob。： org.apache.spark.SparkException：由于阶段失败，作业中止了：阶段162.0中的任务0失败1次，最近一次失败：丢失的任务在阶段162.0中为0.0（TID 3850，本地主机，执行程序驱动程序）：org.apache.spark.api.python.Python.PythonException：追溯（最新最后通话）：

解决方法

对于第一个rdd，您可以替换map函数：

rdd = sc.parallelize([('a',1),('b',('a',3)])
rdd.map(lambda o: (o[0],float(o[1]))).reduceByKey(add).collect()

这是因为split仅适用于字符串，而不适用于元组。