微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!
sparklyr专题提供sparklyr的最新资讯内容,帮你更好的了解sparklyr。
如何将<code>SparkDataFrame</code>的{​​{1}}转换为<code>SparkR</code>的{​​{1}}? 此处提出了类似的问题:<
我正在R包中通过Sparklyr使用Spark,但是它的运行速度非常慢。不过,我是Spark的新手,所以也许我使用的
我创建了一个返回20列和286行的表的函数。我想使用带有group_by语句的spark_apply函数来运行此特定函数。
在使用<code>summarize</code>而非常规<code>across</code>时,我将<code>where</code>与<code>tbl_spark</code>和<code>tbl</code>
我已经尝试了以下来自(<a href="https://github.com/rstudio/sparkxgb" rel="nofollow noreferrer">https://github.com/rstudio/spark
我正在尝试将 r-studio 与 EMR 连接以使用 Livy 和 sparklyr 提交作业,我已经安装了 sparklyr 包,当我尝试使用
我正在尝试在 spark 中实施工具变量回归方法(两阶段最小二乘 2SLS IV 回归)。我更喜欢 sparklyr 或 SparkR
使用 sparkelyr 在数据块中出现此错误: 错误:org.apache.spark.sql.AnalysisException:未定义的函数:'unique'
<pre><code>R version 4.0.3 (2020-10-10) -- &#34;Bunny-Wunnies Freak Out&#34; Copyright (C) 2020 The R Foundation for Statistical Computing P
试图弄清楚这个错误意味着什么以及如何解决它。我在 Spark 3.0 中使用 sparklyr 来解决使用随机森林的多
我有数据“<code>li</code>”,我想运行算法 FPGrowth,但我不知道如何 <pre><code>set.seed(123) # make fake data li
我有以下名为“clients”的 spark 数据框: <pre><code>ID VAR1 VAR2 VAR3 1 A F A1 2 C M
我正在尝试将一个大(~20 GB)的 csv 文件读入 Spark。该文件有一个字段,其中包含带有换行符 (\n) 的文本
我正在尝试根据时间戳(四舍五入到分钟)计算过去 10 分钟内看到的唯一设备。我可以在 data.table 中做
我已经在本地设备上的 RStudio 中工作了几年,最近我开始使用 Spark(版本 3.0.1)。当我尝试在 Spark 中运
我们正在尝试构建我们自己的 docker 镜像,以便在 Spark 中使用 R 和 tidyverse。但是,我们在尝试安装 Spark
我正在尝试在 Mac 系统 (macOS Catalina) 上安装 sparklyr;在运行 spark_install() 时,它开始下载软件包,然后失
当我运行以下代码时,我期望 Sepal_Width_2 列的值是 Sepal_Width + 1,但实际上它是 Sepal_Width + 2。是什么给出
我正在尝试创建一个 dockerfile,该文件从 Rocker/tidyverse 构建图像并包含来自 sparklyr 的 Spark。以前,在这
我正在使用 <code>sparklyr</code> 包转换我的原始 R 代码以使其适用于 Spark。我使用 <code>lubridate</code> 包来计