cloudera - 编程之家

出品 | 开源中国受访者 | 堵俊平为全面呈现开源与云的发展现状，我们邀请到了华为云与计算开源业务（OSDT）总经理，开放原子开源基金会 TOC

我有幸在 2012 年的时候开始接触大数据，用 Hadoop 1.0 加 Hive 的模式体验了下，当时感觉很神奇的，大数据用几台机器就可以快速

我们最近开始使用CDH 6.2和hive-2.1.1。在我们现有的作业（在旧集群中）中，我们设置了默认情况下设置的

我一直在努力思考要使Service Hue与Hive，Impala融合以使其正常工作所需要的依赖性。有时我什至认为要手

我正在尝试使用<a href="https://cloudera.github.io/cm_api/docs/python-client/" rel="nofollow noreferrer">https://cloudera.github.io

我正在运行以下命令，将数据从mysql导入到蜂巢 <pre><code>sqoop import --connect jdbc:mysql://hive.bigdata.com:3306/t

我找不到NiFi的配置目录以增加堆内存，而且似乎每当我重新启动Nifi服务时cloudera都会生成一个新的<code>p

在相当新的环境中挖掘POC以获取火花并检查火花功能，但是在pyspark终端中运行sql查询时出现问题，而Hive

当我尝试这样做时： <pre><code>scala> import org.apache.parquet </code></pre> 错误提示： <pre><code><consol

首先，我浏览了所有有关此问题的文章，但没有一个解决我的问题，因此这不是重复的文章。我在开发

我在Hortonworks HDP沙盒上收到以下错误：到<a href="http://sandbox-hdp.hortonworks.com:50070" rel="nofollow noreferrer

看来，在本地客户端模式下的docker pyspark shell中，它可以正常工作并且能够连接到配置单元。但是，发出

我正在尝试运行Hive查询，从色调到s3。使用了AWS Credential，s3Guard和s3连接器服务。但是，当我从clou

我已经通过ubuntu服务器（Ec2实例）上的docker安装了hdp-sandbox和hdf-sandbox。我能够运行docker映像，并且容器

我有一个扁平的层次结构，深约10层。有一个钥匙，但是很遗憾，这个钥匙没有被遵守，所以不能用于我

<a href="https://i.stack.imgur.com/giY1q.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/giY1q.png" alt="enter image

我能够通过spark提交yarn-cluster模式提交org.apache.spark.examples.SparkPi示例jar，并且成功，但是pyspark中的以下

有时，所有具有Cloudera受管群集的虚拟机都将重新启动，或者从虚拟机上的快照恢复成功安装后，Cloudera

我们有 Python3 应用程序可以连接到 Hbase 并获取数据。连接在 Kerberos Hbase Thrift 二进制协议（在 TSock

我们有一个作业，它从一个包含大约 30 亿行的 hive 表中读取数据，并插入到一个已排序的分桶表中。