apache-spark-sql - 编程之家

我想在此数据框中找到任务列的模式： <pre><code>+-----+-----------------------------------------+ | id |

我从pyspark数据帧开始，并在其上使用.take（）后将其转换为列表。如何保持pyspark数据框？ <pre><code>

我是Apache Spark的新手，我使用com.microsoft.azure.sqldb将数据批量写入SQL Server。如果源DF和目标表之间的列匹

我在Java中有一个Spark数据框架，如下所示： <a href="https://i.stack.imgur.com/fK0rN.png" rel="nofollow noreferrer"

我希望运行一个sql表达式，以检查下一个事件是否为“已交付”或“取消订单”，并根据不同的结果返

我想通过连接两个非常大的表来读取spark sql中的数据。但是我只需要从结果数据框中得到一个固定数字

如果某个组中没有特定的月份（2017年1月1日），我想删除数据中的组（按id col分组）。 <pre class="lang-p

我需要在Spark Engine上运行我的HQL脚本，并且所有内容都在MEMORY本身上运行。是否有任何属性可以设置STORA

我正在将Java8与Spark v2.4.1一起使用我正在尝试使用UDF通过地图进行查找，如下所示数据：

我想使用r markdown将两个表加入一个sql块中。列太多了，我不想在select语句中指定所有列。在HUE Impala / Hiv

选择带有$的列名时遇到问题。例如：从x中选择a $ a 这已在天蓝色数据砖中作为参数读

我的数据框<code>df</code>看上去 <pre><code>[Row(age=2, name=u'Alice'), Row(age=5, name=u'Bob')] </code></pre>

我有来自Kafka的数据流，称为SourceStream。我还有另一个Spark SQL查询流，其单个值为Spark SQL查询以及

我正在利用其余的API （<a href="https://github.com/sourav-mazumder/Data-Science-Extensions/tree/master/spark-datasource-rest" rel

我希望在找到一列的累加和时动态设置一个新的阈值，并在达到某个阈值时将其重置为0。一个简单的例

这是我的原始数据框<code>df</code> 的示例 <pre><code>+----+ | mix| +----+ | 1| | 2| | cap| | 3| | 53| | 56| | 98|

我有一个Spark数据框，其外观如下： <pre><code>Id,timestamp,index,target id1,2020-04-03,1,34 id1,2020-04-03,2,37 id1,2020

我希望从spark-sql CLI获得输出。但是数据以CSV格式表示，并以“ \ t”分隔。有什么办法可以使用纯SQL做到

<pre><code>My JSON data looks like this: { 'ABC': 5, 'TXZ':45, 'QWE':'Williams' } { 'ABC&#3

我正在pyspark的特定窗口中获得最大值。但是从该方法返回的结果不是预期的。这是我的代码：