apache-spark-sql专题提供apache-spark-sql的最新资讯内容,帮你更好的了解apache-spark-sql。
嗨,我有pyspark中提取的JSON数据,示例如下。 <pre><code>{ &#34;data&#34;: [ [&#34;row-r9pv-p86t.ifsp&#34;,
我有一个列表,想在pyspark.sql语句中使用。 <pre><code>VLIST=[&#39;afhjh&#39;, &#39;aikn5&#39;,&#39;hsa76&#39;] INC=pysp
我有一个必须将Spark UDF重载的要求,我知道Spark不支持UDF重载。因此,为了克服这种火花限制,我尝试创
我在胶水表中有一个格式为'<code>dd-mmm-yyyy</code>'(Example31-Mar-2020)的日期值。我需要使用sparkSql将其转换
实际上,我正在尝试在scala中的for循环中将数据框追加到空数据框。 但是附加的数据框每次都变为空。
我有每月平均有13亿行的数据。我正在做简单的SQL查询以筛选出数据基准日期(即分区的一部分)和其他
<pre><code>scala&gt; val map1 = spark.sql(&#34;select map(&#39;p1&#39;, &#39;s1&#39;, &#39;p2&#39;, &#39;s2&#39;)&#34;) </code></pre> ma
我有一个如下数据框: <pre><code>id | file_path -------------------------- abc | s3://data/file1.json def | s3://data/file2
这是我之前的<a href="https://stackoverflow.com/questions/64107171/how-to-refer-a-map-column-in-a-spark-sql-query">question</a>
我知道在stackoverflow和其他站点中有很多类似的问题和答案,我已经尝试了其中的每一个,但仍然无法获
有两个DF: df1: <pre><code>Word Count abd 1 abc 2 ad 3 </code></pre> df2: <pre><code>words, Cou
我想要这样的东西: <pre><code>Id A B Flag COL 1 5 4 0 0 1 5 8 1 1 1 6 4 0 1 1 4 7 1
我有一个节点-> parent_node数据集,格式如下。我需要生成一个node_map,以便任何试图选择“节点”或“任
我试图在某个字段符合特定条件时滞后一个字段,并且由于我需要使用过滤器,因此我正在使用<em> MAX </
我正在尝试从spark数据帧中获取所有行数据到databricks中的文件。我能够将df数据写入文件的次数很少。假
我想基于已处理的用户查询来过滤数据帧,但是条件的数量不是恒定的,并且会因用户而异。例如,假
这是我先前发布的后续<a href="https://stackoverflow.com/questions/64110379/how-to-do-higher-order-function-transform-with-sub-qu
我的数据集列看起来像 <code>date</code> <code>categorycol1</code> <code>categorycol2</code> <code>categorycol10</code> .. <code>
我有一个带有这样的列的spark数据框: <pre><code>let newAddedArray = []; mainArray.forEach((main) =&gt; { ne
我有一个具有10万条记录的数据框,并且我想在一列的基础上删除重复的记录,然后在过滤掉不同数据框