apache-spark-sql - 编程之家

apache-spark-sqlapache-spark-sql专题提供apache-spark-sql的最新资讯内容，帮你更好的了解apache-spark-sql。

我有一个带有日期类型的列<code>date_key</code>的数据框。问题是我想创建仅包含<code>yyyy-mm</code>的{{1}}

我有一个案例类： <strong>案例类PA（ id：长名称：字符串，级别：整数 .......，路径：Seq [ParentPat

我在HDFS中具有以下目录。 <pre><code>/HDFS/file/date=20200801/id=1 .. /HDFS/file/date=20200831/id=1 /HDFS/file/date=20200901

我尝试删除表并再次创建相同的表。但是我遇到了下面提到的错误。 <pre><code>spark.sql("drop table if ex

我有一些数据将按ID分组。 <pre><code>id, field 0 A 0 B 0 C 1 B 1 B 1 C 2 E </co

我试图了解<code>Salting</code>的技术来解决Spark SQL中的<code>Skew</code>。我已经完成了一些在线阅读，并在Spar

我想根据某些条件加入两个数据框。 <strong>这两种方法中哪个具有更好的性能特征？</strong> <strong

是否有办法为Pyspark中的每组数据获取最近30天最多的记录？在此示例中，获得（Grouping，Bucket）分组内具

我有一个具有一个列的数据框，其中包含一些嵌套的JSON以及变量schema。即每行中的JSON具有不同的架构。

我具有以下格式的数据，其中包含38个测量列，分别显示了各个月，如下所示。 <pre><code>+---------+------

所以我有一个数据框，我想每天计算一些数量。.假设我们有10列col1，col2，col3，col4 ... coln，每列都取决

全部我正在尝试在Spark中读取具有多种记录类型的文件，但不知道如何执行。有人可以指出是否有

我想创建一个用于加载数据集的通用特征： <pre><code>case class Foo(name: String) trait Loader[T] { def load(impli

我正在使用pyspark中的以下代码来执行聚合数组集合： <pre><code>caret</code></pre> 我知道诸如将强制数

从S3读取文件时遇到奇怪的问题。这就是我在做的 <pre><code>val previousDay = spark.read .option("header&#

我已经安排了动态执行者进行每日火花工作。这项工作在某些情况下可以正常运行，而在某些情况下会

我正在尝试制作一个Spark应用程序来处理和处理实时流式动态日志。下面是日志结构： <pre><code>2020-09

我想用Pyspark中的中值替换空值，该怎么办？

分类导航