apache-spark-sql - 编程之家

apache-spark-sqlapache-spark-sql专题提供apache-spark-sql的最新资讯内容，帮你更好的了解apache-spark-sql。

嗨，我有pyspark中提取的JSON数据，示例如下。 <pre><code>{ "data": [ ["row-r9pv-p86t.ifsp",

我有一个列表，想在pyspark.sql语句中使用。 <pre><code>VLIST=['afhjh', 'aikn5','hsa76'] INC=pysp

我有一个必须将Spark UDF重载的要求，我知道Spark不支持UDF重载。因此，为了克服这种火花限制，我尝试创

我在胶水表中有一个格式为'<code>dd-mmm-yyyy</code>'（Example31-Mar-2020）的日期值。我需要使用sparkSql将其转换

实际上，我正在尝试在scala中的for循环中将数据框追加到空数据框。但是附加的数据框每次都变为空。

我有每月平均有13亿行的数据。我正在做简单的SQL查询以筛选出数据基准日期（即分区的一部分）和其他

<pre><code>scala> val map1 = spark.sql("select map('p1', 's1', 'p2', 's2')") </code></pre> ma

我有一个如下数据框： <pre><code>id | file_path -------------------------- abc | s3://data/file1.json def | s3://data/file2

这是我之前的<a href="https://stackoverflow.com/questions/64107171/how-to-refer-a-map-column-in-a-spark-sql-query">question</a>

我知道在stackoverflow和其他站点中有很多类似的问题和答案，我已经尝试了其中的每一个，但仍然无法获

有两个DF： df1： <pre><code>Word Count abd 1 abc 2 ad 3 </code></pre> df2： <pre><code>words, Cou

我想要这样的东西： <pre><code>Id A B Flag COL 1 5 4 0 0 1 5 8 1 1 1 6 4 0 1 1 4 7 1

我有一个节点-> parent_node数据集，格式如下。我需要生成一个node_map，以便任何试图选择“节点”或“任

我试图在某个字段符合特定条件时滞后一个字段，并且由于我需要使用过滤器，因此我正在使用<em> MAX </

我正在尝试从spark数据帧中获取所有行数据到databricks中的文件。我能够将df数据写入文件的次数很少。假

我想基于已处理的用户查询来过滤数据帧，但是条件的数量不是恒定的，并且会因用户而异。例如，假

这是我先前发布的后续<a href="https://stackoverflow.com/questions/64110379/how-to-do-higher-order-function-transform-with-sub-qu

我的数据集列看起来像 <code>date</code> <code>categorycol1</code> <code>categorycol2</code> <code>categorycol10</code> .. <code>

我有一个带有这样的列的spark数据框： <pre><code>let newAddedArray = []; mainArray.forEach((main) => { ne

我有一个具有10万条记录的数据框，并且我想在一列的基础上删除重复的记录，然后在过滤掉不同数据框

分类导航