Hadoop - 编程之家

AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

hadoop之mr框架的源码理解注意点

1、reduce源码中的GroupComparable和SecondaryComparable到底都是干什么的理解点1：源码位置理解点 secondaryComparable这个是可以对map端按照某种规则排序好的数据进行边界的界定，就是比如你map端排序的根据是按点之前的字段进行分组的之后传输到了reduce端了，但是

java – 关于hadoop hdfs文件系统重命名

我将大量数据存储到hdfs中.我需要将文件从一个文件夹移动到另一个文件夹.我可以问一般文件系统重命名方法的成本是多少？假设我必须移动太字节数据.非常感谢你.解决方法:如果正确实现,在HDFS或任何文件系统中移动文件涉及更改名称空间而不移动实际数据.完成代码只会更改Name节点中

【hadoop】hadoop3.2.0应用环境搭建指南

下面列出我搭建hadoop应用环境的文章整理在一起，不定期更新，供大家参考，互相学习！！！1.1hadoop3.2.0的安装并测试https://www.cnblogs.com/CQ-LQJ/p/11602927.html1.2编译Hadoop连接eclipse的插件遇见的一系列错误，崩溃的操作 https://www.cnblogs.com/CQ-LQJ/p/11450677.html1.3

如何在Airflow上重新启动失败的任务

我使用的是LocalExecutor,我的dag有3个任务,其中任务(C)依赖于任务(A).任务(B)和任务(A)可以并行运行,如下所示A–&以及c乙所以任务(A)失败了,但任务(B)运行正常.任务(C)尚未运行,因为任务(A)失败.我的问题是我如何单独运行任务(A),因此任务(A)运行一旦任务(A)完成,并且Airf

hive基础知识四

1.hive表的数据压缩1.1数据的压缩说明压缩模式评价可使用以下三种标准对压缩方式进行评价1、压缩比：压缩比越高，压缩后文件越小，所以压缩比越高越好2、压缩时间：越快越好3、已经压缩的格式文件是否可以再分割：可以分割的格式允许单一文件由多个Mapper程序处理，可以更

Hadoop的安装与配置

1安装JDK官网：https://www.oracle.comechnetwork/java/javase/downloads/jdk8-downloads-2133151.html镜像：https:/epo.huaweicloud.com/java/jdk/首先下载jdklinux安装包jdk-11_linux-x64_bin.tar.gz上传到linux服务器jdk解压修改jdk文件夹名修改配置文件

python – pyspark错误：AttributeError：’SparkSession’对象没有属性’parallelize’

我在Jupyter笔记本上使用pyspark.以下是Spark设置的方式：importfindsparkfindspark.init(spark_home='/home/edamame/spark/spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive',python_path='python2.7')importpysparkfrompyspark.sqlimport*sc

java – 如何设置HTTP源来测试Flume设置？

我是Flume和Hadoop的新手.我们正在开发一个BI模块,我们可以在HDFS中存储来自不同服务器的所有日志.为此,我使用Flume.我刚刚开始尝试.成功创建了一个节点,但现在我愿意设置一个HTTP源和一个接收器,它将通过HTTP将传入的请求写入本地文件.任何建议？提前致谢/解决方法:希望这有助于

Sqoop：无法加载mysql驱动程序异常

我在本地机器上安装了Sqoop.以下是配置信息.Bash.bashrc：exportHADOOP_HOME=/home/hduser/hadoopexportHBASE_HOME=/home/hduser/hbaseexportHIVE_HOME=/home/hduser/hiveexportHCAT_HOME=/home/hduser/hive/hcatalogexportSQOOP_HOME=/home/hduser/sqoopexportPATH=

hadoop学习笔记九：mr2HA高可用环境搭建及处步使用

本文原创，如需转载，请注明原文链接和作者现结点的配置情况 1、单节点的yarn管理的配置需要配置mapread-site.xmlConfigureparametersasfollows:etc/hadoop/mapred-site.xml:#mapread-site.xml<configuration><property><name>mapreduce.framework.name<

【Hadoop】linux安装mysql

官网下载地址https://dev.mysql.com/downloads/file/?id=471503本文所用MySQL版本为5.7.19;上传包将mysql-5.7.19-1.el7.x86_64.rpm-bundle.tar安装包上传到/opt/soft目录（此目录可以自定义）,采用rz命令；[root@bigdata112conf]#rz若不存在rz命令，可以用yum进行安

Hadoop组成架构

Hadoop是apache用来“处理海量数据存储和海量数据分析”的分布式系统基础架构，更广义的是指hadoop生态圈。Hadoop的优势高可靠性：hadoop底层维护多个数据副本，即使某个计算单元故障，也不会导致数据丢失。高扩展性：天然支持分布式，可方便的扩展至几千个节点。高容错性：能

mysql-sqoop merge-key创建多个零件文件,而不是一个不能使用merge-key的文件

理想情况下,当我们在不使用merge-key的情况下运行增量文件时,它将创建带有附加数据集的新文件,但是如果我们使用merge-key,则它将创建新的整个数据集,包括仅在一个文件中的先前数据集.但是当我在sqoop工作中使用增量追加时,我没有得到一个零件文件.以下是我的步骤：1)初始数据：mysq

beeline链接hive报错

看问题：beeline连接hiveserver2报错。连接串：hive --servicebeeline-ujdbc:hive2://s1:10000/hive错误：Error:CouldnotopenclienttransportwithJDBCUri:jdbc:hive2://s1:10000/hive:Failedtoopennewsession:java.lang.RuntimeException:org.apache.hadoop.ipc.

三、hadoop用户认证--kerberos

一、HDFS权限问题：默认情况下，HDFS的权限认证是开启的，通过在hdfs-site.xml中设置dfs.permissions为true或者false来开启、关闭。所以当客户端进入hdfs的用户没有权限时，是无法对hdfs进行操作的。这时候可通过下面几种方式绕开认证。1、在java代码中设置hadoop用户为rootSystem.se

Hadoop和Python：禁用排序

我已经意识到,当使用Python代码运行Hadoop时,无论是mapper还是reducer(不确定哪个)都会在reducer.py打印输出之前对我的输出进行排序.目前,它似乎是按字母数字排序的.我想知道是否有一种方法可以完全禁用此功能.我想要基于从mapper.py打印的顺序的程序输出.我在Java中找到了答案,但

上一页 8 9 10 111213 14 15 下一页

小编推荐

热门标签