如何解决如何将 pd.DataFrame 的 RDD 转换为有效地触发 DataFrame?
我得到了 RDD,最终得到的 RDD 元素是一个大(>2GB)pandas 数据帧的列表——每个数据帧都有不同的结构。
我可以这样转换它们(我是列表中的项目索引)
rdd.values().flatMap(lambda x: x[i].values.tolist()).toDF()
但是,这看起来很慢并且没有使用箭头。
有没有什么办法可以在这种情况下使用箭头?
我知道我可以将代码重写为 pyspark/koalas,但这需要几个月的时间。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。