apache-spark-sql - 编程之家

apache-spark-sqlapache-spark-sql专题提供apache-spark-sql的最新资讯内容，帮你更好的了解apache-spark-sql。

我正在学习python中的spark。我有一个JSON文件，如下所示： <pre><code> { "_class":"fdsfsdfsdfds"

我下面有包含文本和json字符串的日志 <pre><code>2020-09-24T08:03:01.633Z 11.21.23.1 {"EventTime":"2020-09-24

当我运行以下查询时： <pre><code>merge into test_records t using ( select id, "senior developer" title, country from

我有这种格式的pyspark数据框。 <pre><code>out.show(5) +----------------+--------+-- |ip_address| Device | Count | +-------

我要删除pyspark中一列的前导零的特定数目吗？如果您看到我只想删除前导零仅为1的零，那么输出

我正在尝试将一个简单的用例插入S3上的配置单元分区表中。我正在EMR的齐柏林飞艇笔记本上运行我的代

我正在尝试从嵌套的jsonString创建一个数据帧并将其拆分为多个数据帧，即外部元素数据将转到一个数据

我有一个看起来像这样的数据框： <pre><code>def isOpen(self, ip, port): s = socket.socket(socket.AF_INET, socket.SOC

当使用Spark SQL在Spark代码中的镶木地板上查询外部配置单元表时，Spark返回十进制字段的垃圾/错误值。</p

在csv文件中，作为日期时间字段的某些列的输入格式为“ mm-dd-yyyy hh：mm：ss”。在数据框中加载文件时

在这里我需要在spark数据帧中找到指数移动平均值：表格： <pre><code>ab = spark.createDataFrame( [(1,"1/1/20

第二次我运行查询的速度明显更快。为什么？代码： <pre><code>publicvoidtest3() { Dataset<Row>SQ

我只想检查以下临时视图实现之间是否有任何区别： <pre><code>Val df = sqlcontext.sql("select * from x")

我正在使用自定义接收者从外部资源中提取数据，我不确定是什么原因导致运行了几个小时后在kuberenetes

我有一个如下所示的数据框： <pre><code>|------------|-----------|---------------|---------------| | Name | Type

我在Spark SQL中有一个where子句，由于某种原因它不返回任何记录。我认为它不起作用，所以我想问一下这

我正在尝试将许多avro文件读入spark数据帧。它们都共享相同的s3文件路径前缀，因此最初我运行的是类似

我正在尝试使用Java应用程序将火花作业提交到Hadoop HDP 2.6.3环境（使用kerberos）上的纱线群集。我在所有

我有一个看起来像这样的表： <pre><code>trip_distance | tpep_pickup_datetime | tpep_dropoff_datetime| +-------------+-----

分类导航