cloudera专题提供cloudera的最新资讯内容,帮你更好的了解cloudera。
出品 | 开源中国受访者 | 堵俊平为全面呈现开源与云的发展现状,我们邀请到了华为云与计算开源业务(OSDT)总经理,开放原子开源基金会 TOC
我有幸在 2012 年的时候开始接触大数据,用 Hadoop 1.0 加 Hive 的模式体验了下,当时感觉很神奇的,大数据用几台机器就可以快速
我们最近开始使用CDH 6.2和hive-2.1.1。在我们现有的作业(在旧集群中)中,我们设置了默认情况下设置的
我一直在努力思考要使Service Hue与Hive,Impala融合以使其正常工作所需要的依赖性。有时我什至认为要手
我正在尝试使用<a href="https://cloudera.github.io/cm_api/docs/python-client/" rel="nofollow noreferrer">https://cloudera.github.io
我正在运行以下命令,将数据从mysql导入到蜂巢 <pre><code>sqoop import --connect jdbc:mysql://hive.bigdata.com:3306/t
我找不到NiFi的配置目录以增加堆内存,而且似乎每当我重新启动Nifi服务时cloudera都会生成一个新的<code>p
在相当新的环境中挖掘POC以获取火花并检查火花功能,但是在pyspark终端中运行sql查询时出现问题,而Hive
当我尝试这样做时: <pre><code>scala&gt; import org.apache.parquet </code></pre> 错误提示: <pre><code>&lt;consol
首先,我浏览了所有有关此问题的文章,但没有一个解决我的问题,因此这不是重复的文章。 我在开发
我在Hortonworks HDP沙盒上收到以下错误: 到<a href="http://sandbox-hdp.hortonworks.com:50070" rel="nofollow noreferrer
看来,在本地客户端模式下的docker pyspark shell中,它可以正常工作并且能够连接到配置单元。但是,发出
我正在尝试运行Hive查询,从色调到s3。使用了AWS Credential,s3Guard和s3连接器服务。 但是,当我从clou
我已经通过ubuntu服务器(Ec2实例)上的docker安装了hdp-sandbox和hdf-sandbox。我能够运行docker映像,并且容器
我有一个扁平的层次结构,深约10层。有一个钥匙,但是很遗憾,这个钥匙没有被遵守,所以不能用于我
<a href="https://i.stack.imgur.com/giY1q.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/giY1q.png" alt="enter image
我能够通过spark提交yarn-cluster模式提交org.apache.spark.examples.SparkPi示例jar,并且成功,但是pyspark中的以下
有时,所有具有Cloudera受管群集的虚拟机都将重新启动,或者从虚拟机上的快照恢复成功安装后,Cloudera
我们有 Python3 应用程序可以连接到 Hbase 并获取数据。 连接在 Kerberos Hbase Thrift 二进制协议(在 TSock
我们有一个作业,它从一个包含大约 30 亿行的 hive 表中读取数据,并插入到一个已排序的分桶表中。