如何解决如何在 SparkR 中使用 stats::poly 创建正交多项式?
我想知道如何在我的数据集中创建多列的正交多项式。我在 Databricks 工作,需要找到一个适用于分布式框架 (SparkR) 的解决方案。
目前,我参考了 SparkR::dapply
文档 here 并尝试了以下操作:
schema <- structType(
structField("FIRST_DAY_OF_MONTH","date"),structField("polynomial_predictor","double")
)
df <- SparkR::dapply(df,function(x) {x <- cbind(x,stats::poly(x$col,2)},schema)
上面的代码似乎可以工作,但也需要很长时间(约 15 分钟),这并不理想,因为我将不得不为更大的数据集和其他列执行此操作。有没有办法加快这个过程,特别是在我必须为多个列执行相同任务的情况下?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。