apache-spark-sql专题提供apache-spark-sql的最新资讯内容,帮你更好的了解apache-spark-sql。
我有一个带有日期类型的列<code>date_key</code>的数据框。问题是我想创建仅包含<code>yyyy-mm</code>的{​​{1}}
我有数组列 <pre><code>|-- packages: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- package
我有一个案例类: <strong>案例类PA( id:长 名称:字符串, 级别:整数 ......., 路径:Seq [ParentPat
我在HDFS中具有以下目录。 <pre><code>/HDFS/file/date=20200801/id=1 .. /HDFS/file/date=20200831/id=1 /HDFS/file/date=20200901
我尝试删除表并再次创建相同的表。但是我遇到了下面提到的错误。 <pre><code>spark.sql(&#34;drop table if ex
我有一些数据将按ID分组。 <pre><code>id, field 0 A 0 B 0 C 1 B 1 B 1 C 2 E </co
我试图了解<code>Salting</code>的技术来解决Spark SQL中的<code>Skew</code>。我已经完成了一些在线阅读,并在Spar
我想根据某些条件加入两个数据框。 <strong>这两种方法中哪个具有更好的性能特征?</strong> <strong
是否有办法为Pyspark中的每组数据获取最近30天最多的记录?在此示例中,获得(Grouping,Bucket)分组内具
我有一个具有一个列的数据框,其中包含一些嵌套的JSON以及变量schema。即每行中的JSON具有不同的架构。
我具有以下格式的数据,其中包含38个测量列,分别显示了各个月,如下所示。 <pre><code>+---------+------
所以我有一个数据框,我想每天计算一些数量。.假设我们有10列col1,col2,col3,col4 ... coln,每列都取决
全部 我正在尝试在Spark中读取具有多种记录类型的文件,但不知道如何执行。 有人可以指出是否有
我有一个数据框,正在尝试在其上编写一个for循环。 <pre><code>|ID | from_dt | To_dt |row_number|diff|negetiv
我想创建一个用于加载数据集的通用特征: <pre><code>case class Foo(name: String) trait Loader[T] { def load(impli
我正在使用pyspark中的以下代码来执行聚合数组集合: <pre><code>caret</code></pre> 我知道诸如将强制数
从S3读取文件时遇到奇怪的问题。这就是我在做的 <pre><code>val previousDay = spark.read .option(&#34;header&#
我已经安排了动态执行者进行每日火花工作。这项工作在某些情况下可以正常运行,而在某些情况下会
我正在尝试制作一个Spark应用程序来处理和处理实时流式动态日志。 下面是日志结构: <pre><code>2020-09
我想用Pyspark中的中值替换空值,该怎么办?