微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用网状包从 Multidplyr 调用 Python

如何解决使用网状包从 Multidplyr 调用 Python

我正在使用 Hadley 的 multidplyr 包对大型数据帧执行一些并行操作。其中一项操作涉及对某些数据进行 base 64 解码,为此我使用了 python 函数。不幸的是,当我尝试使用 multidplyr 扩展它时,python 函数似乎无法在集群中正确复制。这是一个 MWE:

library(reticulate)
library(multidplyr)
library(dplyr)

base64 <- import("base64")

df <- data.frame(groups = c(1,2),data = c("dGVzdA==","dGhpcw=="))

#works
df %>% rowwise() %>%
  mutate(decoded = as.character(base64$b64decode(data)))

cl <- new_cluster(2)
cluster_copy(cl,"base64")

#doesn't work
df %>% group_by(groups) %>%
  partition(cl) %>%
  mutate(
    decoded = base64$b64decode(data)
  ) %>%
  collect()

我得到的错误是:

 Error: Remote computation Failed:
 Problem with `mutate()` input `decoded`.
 x attempt to apply non-function 
 ℹ Input `decoded` is `base64$b64decode(data)`. 
 ℹ The error occurred in group 1: groups = 1.

是否可以将 python 包/函数传递给 multidplyr 集群?怎么样?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。