手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程博文
编程实例
常见问题
产品运营
软件教程
办公软件
栏目导航
▸ 大数据
▸ 图像处理
▸ chatgpt
▸ 文心一言
▸ DevOps
▸ Kafka
▸ Spark
▸ Dubbo
▸ NLP
▸ 力扣
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
编程之家
Spark
spark-submit部署应用的相关参数详解
a.[--master]:表示要连接的集群管理器spark://host:port:连接到指定端口的Spark独立集群上。默认情况下Spark独立主节点使用7077端口 mesos://host:port:连接到指定端口的Mesos集群上。默认情况下Mesos主节点监听5050端口 yarn:连接到一个YARN集群
Spark版本升级二三事
起因:部门准备将数据仓库开发工具从HiveSQL大规模迁移至SparkSQL。此前集群已经自带了Spark-1.5.2,系HDP-2.3.4自带的Spark组件,现在需要将之升级到目前的最新版本(2.2.1)。作为一个提供给第三方使用的开发工具,应该避免第三方过度浪费时间于工具本身的使用(为SQL任务调试合理的资源
Spark_RDD的持久化
RDD的持久化方法:cache()或者persist()做实验:同一个160M文件进行计算它的行数:文件小的时候没有差距,文件大的时候差距很明显第一次计算两次(未持久化):时间差不多第二次计算两次(持久化):时间第一次长,第二次却很短这是因为第一次的时候进行持久化,而第二次的时候已经持久化过了
Spark SQL Join原理分析
SparkSQLJoin原理分析1.Join问题综述:Join有inner,leftouter,rightouter,fullouter,leftsemi,leftanti六种类型,对单独版本的Join操作,可以将问题表述为:IterA,IterB为两个Iterator,根据规则A将两个Iterator中相应的Row进行合并,然后按照规则B对合并后Row进行过滤。比如Inner_join,
Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission d
保存文件时权限被拒绝曾经踩过的坑:保存结果到hdfs上没有写的权限通过修改权限将文件写入到指定的目录下 * * *$HADOOP_HOME/bin/hdfsdfs-chmod777/user * * *Exceptioninthread"main"org.apache.hadoop.security.AccessControlException: *Permi
回归算法之逻辑回归
线性回归与逻辑回归的区别:比如要分析年龄,性别,身高,饮食习惯对于体重的影响,如果体重是实际的重量,那么就要使用线性回归。如果将体重分类,分成了高,中,低三类,就要使用逻辑回归进行分类。importorg.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS}importorg.a
Hadoop2.7.3集群安装scala-2.12.8 和spark2.7
ApacheSpark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapRedu
0基础学习大数据你需要了解的学习路线和方向
现在大数据这么火,各行各业想转行大数据,那么问题来了,该往哪方面发展,哪方面最适合自己?首先从字面来了解一下大数据 大数据 (巨量数据集合(IT行业术语))大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察
基于Spark的GBDT + LR模型实现
目录基于Spark的GBDT+LR模型实现数据预处理部分GBDT模型部分(省略调参部分)GBDT与LR混合部分基于Spark的GBDT+LR模型实现测试数据来源http://archive.ics.uci.edu/ml/machine-learning-databases/adult/该模型利用Sparkmllib的GradientBoostedTrees作为GBDT部分
Spark LDA 实例
SparkLDA实例一、准备数据数据格式为:documents:RDD[(Long,Vector)],其中:Long为文章ID,Vector为文章分词后的词向量;通过分词以及数据格式的转换,转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOpt
Apache Spark 内存管理详解
Spark作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理,有助于更好地开发Spark应用程序和进行性能调优。本文旨在梳理出Spark内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于
windows 客户端使用IDEA远程调试Linux中 spark 代码
1.修改配置文件在spark-env.sh,添加一行配置,内容如下:exportSPARK_MASTER_OPTS="-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10000"注意调试端口为10000,在客户端调试是也使用该端口号。2.客户端远程链接并调试客户端使用IDEA进行远程调试Linu
新书《深入理解Kafka:核心设计与实践原理》上架,感谢支持~
新书上架初识Kafka时,笔者接触的还是0.8.1版本,Kafka发展到目前的2.x版本,笔者也见证了Kafka的蜕变,比如旧版客户端的淘汰、新版客户端的设计、Kafka控制器的迭代优化、私有协议的变更、事务功能的引入等。Kafka从昔日的新星逐渐走向成熟,再到今日的王者地位不可撼动,这期
spark history server配置使用
问题描述在Spark安装成功后,无论是通过spark-submit工具还是通过IntellijIDEA提交任务,只要在Spark应用程序运行期间,都可以通过WebUI控制台页面来查看具体的运行细节,在浏览器中通过地址:http://<driver-node>:4040即可查看当前的运行状态。但是一旦应用程序运行结束,该Web界面也就
Spark面对OOM问题的解决方法及优化总结
转载请保持完整性并注明来源链接: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffl
大数据知识点分享:大数据平台应用 17 个知识点汇总
一、大数据中的数据仓库和Mpp数据库如何选型?在Hadoop平台中,一般大家都把hive当做数据仓库的一种选择,而Mpp数据库的典型代表就是impala,presto。Mpp架构的数据库主要用于即席查询场景,暨对数据查询效率有较高要求的场景,而对数据仓库的查询效率要求无法做大MPP那样,所以更多地适用与离
上一页
20
21
22
23
24
25
26
27
下一页
小编推荐
• 一次彻底讲清如何处理mysql 的死锁问题
• MySQL 通过 Next-Key Locking 技术(行
• 一文彻底弄懂mysql的事务日志,undo lo
• Linux系统控制文件 /etc/sysctl.conf详
• linux命令useradd添加用户详解
• vi 和vim 的区别
• Linux系统下如何监测磁盘的使用空间
• linux中查看和开放端口
• Linux设置开放一个端口
• linux之ftp命令详解
• linux系统下实时监控进程以及定位杀死挂
• Linux下安装jdk8的方法
• 阿里云被挖矿进程wnTKYg入侵的解决方法
• 莫小安 CentOS7使用firewalld打开关闭防
• Linux中more和less命令用法
• linux系统里/opt目录和/usr/local目录的
• 如何使用Siege进行压测?
• 本地访问服务器的nacos地址
热门标签