微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

为什么在使用动态变量名时在 Sparklyr 中加 1 实际上加 2?

如何解决为什么在使用动态变量名时在 Sparklyr 中加 1 实际上加 2?

当我运行以下代码时,我期望 Sepal_Width_2 列的值是 Sepal_Width + 1,但实际上它是 Sepal_Width + 2。是什么给出的?

require(dplyr)
require(sparklyr)

Sys.setenv(SPARK_HOME='/usr/lib/spark')
sc <- spark_connect(master="yarn")

# for this example these variables are hard coded
# but in my actual code these are named dynamically
sw_name <- as.name('Sepal_Width')
sw2 <- "Sepal_Width_2"
sw2_name <- as.name(sw2)

ir <- copy_to(sc,iris)

print(head(ir %>% mutate(!!sw2 := sw_name))) # so far so good
# Source: spark<?> [?? x 6]
# Sepal_Length Sepal_Width Petal_Length Petal_Width Species Sepal_Width_2
# <dbl>       <dbl>        <dbl>       <dbl> <chr>           <dbl>
# 5.1         3.5          1.4         0.2 setosa            3.5
# 4.9         3            1.4         0.2 setosa            3  
# 4.7         3.2          1.3         0.2 setosa            3.2
# 4.6         3.1          1.5         0.2 setosa            3.1
# 5           3.6          1.4         0.2 setosa            3.6
# 5.4         3.9          1.7         0.4 setosa            3.9

print(head(ir %>% mutate(!!sw2 := sw_name) %>% mutate(!!sw2 := sw2_name + 1))) # i guess 2+2 != 4?
# Source: spark<?> [?? x 6]
# Sepal_Length Sepal_Width Petal_Length Petal_Width Species Sepal_Width_2
# <dbl>       <dbl>        <dbl>       <dbl> <chr>           <dbl>
# 5.1         3.5          1.4         0.2 setosa            5.5
# 4.9         3            1.4         0.2 setosa            5  
# 4.7         3.2          1.3         0.2 setosa            5.2
# 4.6         3.1          1.5         0.2 setosa            5.1
# 5           3.6          1.4         0.2 setosa            5.6
# 5.4         3.9          1.7         0.4 setosa            5.9

我的用例要求我使用您在上面看到的动态变量命名。在这个例子中,它相当愚蠢(与直接使用变量相比),但在我的用例中,我在数百个不同的火花表中运行相同的函数。它们在列数和每列是什么(一些机器学习模型的输出)方面都有相同的“模式”,但名称不同,因为每个表都包含不同模型的输出。这些名称是可预测的,但由于它们各不相同,因此我会像您在此处看到的那样动态构建它们,而不是对其进行硬编码。

名称是硬编码的时,Spark 似乎知道如何将 2 和 2 相加,但是当名称是动态的时,它突然吓坏了。

解决方法

您可能误用了 as.name,这会导致 sparklyr 误解您的输入。

请注意,仅在本地表上工作时您的代码会出错:

sw_name <- as.name('Sepal.Width') # swap "_" to "." to match variable names
sw2 <- "Sepal_Width_2"
sw2_name <- as.name(sw2)
data(iris)

print(head(iris %>% mutate(!!sw2 := sw_name)))
# Error: Problem with `mutate()` input `Sepal_Width_2`.
# x object 'Sepal.Width' not found
# i Input `Sepal_Width_2` is `sw_name`.

请注意,您将 rlang 中的 !! 运算符与基础 R 中的 as.name 一起使用。但您并未如 this 问题中所示将它们一起使用。

我建议您使用 rlang 包中的 sym!! 而不是 as.name,并且将两者应用于作为列名的字符串。以下在本地有效,与 non-standard evaluation guidance 一致。所以它应该转化为火花:

library(dplyr)
data(iris)

sw <- 'Sepal.Width'
sw2 <- paste0(sw,"_2")

head(iris %>% mutate(!!sym(sw2) := !!sym(sw)))
head(iris %>% mutate(!!sym(sw2) := !!sym(sw)) %>% mutate(!!sym(sw2) := !!sym(sw2) + 1))
,

我不确定哪个包是罪魁祸首(sparklyr、dplyr、R,谁知道),但是当我从 3.6.3/sparklyr 1.5 升级到 R 4.0.2/sparklyr 1.7.0 时,这个问题已经得到解决。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?