技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

scala – Spark：分组数据的“数量”是转换还是行动？

时间：2020-10-19分类：Scala作者：编程之家

我知道 count调用RDD或DataFrame是一个动作.但是在摆弄火花壳时,我发现了以下情况

scala> val empDF = Seq((1,"James Gordon",30,"Homicide"),(2,"Harvey Bullock",35,(3,"Kristen Kringle",28,"Records"),(4,"Edward Nygma","Forensics"),(5,"Leslie Thompkins",31,"Forensics")).toDF("id","name","age","department")
empDF: org.apache.spark.sql.DataFrame = [id: int,name: string,age: int,department: string]

scala> empDF.show
+---+----------------+---+----------+
| id|            name|age|department|
+---+----------------+---+----------+
|  1|    James Gordon| 30|  Homicide|
|  2|  Harvey Bullock| 35|  Homicide|
|  3| Kristen Kringle| 28|   Records|
|  4|    Edward Nygma| 30| Forensics|
|  5|Leslie Thompkins| 31| Forensics|
+---+----------------+---+----------+

scala> empDF.groupBy("department").count //count returned a DataFrame
res1: org.apache.spark.sql.DataFrame = [department: string,count: bigint]

scala> res1.show
+----------+-----+                                                              
|department|count|
+----------+-----+
|  Homicide|    2|
|   Records|    1|
| Forensics|    2|
+----------+-----+

当我在GroupedData(empDF.groupBy(“department”))上调用count时,我得到另一个DataFrame作为结果(res1).这让我相信在这种情况下,计数是一个转变.当我调用count时没有触发任何计算这一事实进一步支持了它,相反,当我运行res1.show时它们就开始了.

我无法找到任何表明计数也可能是转换的文档.有人可以对此有所了解吗？

解决方法

您在代码中使用的.count()是通过RelationalGroupedDataset,它创建一个包含分组数据集中元素数量的新列.这是一种转变.参考：
https://spark.apache.org/docs/1.6.0/api/scala/index.html#org.apache.spark.sql.GroupedDataset

通常在RDD / DataFrame / Dataset上使用的.count()与上面完全不同,而.count()是一个Action.参见：https://spark.apache.org/docs/1.6.0/api/scala/index.html#org.apache.spark.rdd.RDD

编辑：

在distributedDataSet上运行时,总是使用.count()和.agg(),以避免将来混淆：

empDF.groupBy($"department").agg(count($"department") as "countDepartment").show

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：scala – 在地图中进行懒惰评估下一篇：scala语法匹配多个案例类类型而不分

相关推荐

共收录 Twitter 的 14 款开源软件，第 1 页

共收录Twitter的14款开源软件，第1页Twitter的Emoji表情 TwemojiTwemoji是Twitter开源的其完整的Emoji表情图片。开发者可以去GitHub下载完整的表情库，并把这些表情加入到自己的应用或网页中。使用示例：var i = 0;twemoji.parse( ’emoji, m\u276

作者：编程之家时间：2022-11-24

Java和Scala中关于==的区别

Java和Scala中关于==的区别Java：==比较两个变量本身的值，即两个对象在内存中的首地址；equals比较字符串中所包含的内容是否相同。publicstaticvoidmain(String[]args){ Strings1="abc"; Strings2=newString("abc"); System.out.println(s1==s2)

作者：编程之家时间：2022-11-24

Scala怎么使用

本篇内容主要讲解“Scala怎么使用”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Scala怎么使用”吧!语法scala...

作者：编程之家时间：2022-11-02

Scala是一种什么语言

这篇文章主要介绍“Scala是一种什么语言”，在日常操作中，相信很多人在Scala是一种什么语言问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，

作者：编程之家时间：2022-11-11

Scala Trait怎么使用

这篇文章主要介绍“Scala Trait怎么使用”，在日常操作中，相信很多人在Scala Trait怎么使用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，

作者：编程之家时间：2022-11-11

Scala类型检查与模式匹配怎么使用

这篇文章主要介绍“Scala类型检查与模式匹配怎么使用”，在日常操作中，相信很多人在Scala类型检查与模式匹配怎么使用问题上存在疑惑，小编查阅了各式资料，整理...

作者：编程之家时间：2022-11-11

scala中常用但不常见的符号有哪些

这篇文章主要介绍“scala中常用但不常见的符号有哪些”，在日常操作中，相信很多人在scala中常用但不常见的符号有哪些问题上存在疑惑，小编查阅了各式资料，整理...

作者：编程之家时间：2022-11-11

Scala基础知识有哪些

本篇内容主要讲解“Scala基础知识有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Scala基础知识有哪些”...

作者：编程之家时间：2022-11-11

scala基础知识点有哪些

本篇内容介绍了“scala基础知识点有哪些”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧...

作者：编程之家时间：2022-11-11

Scala下划线怎么使用

本篇内容介绍了“Scala下划线怎么使用”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧...

作者：编程之家时间：2022-11-11

小编推荐

苹果市值2025年有望达4万亿美元