手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程博文
编程实例
常见问题
产品运营
软件教程
办公软件
栏目导航
▸ 大数据
▸ 图像处理
▸ chatgpt
▸ 文心一言
▸ DevOps
▸ Kafka
▸ Spark
▸ Dubbo
▸ NLP
▸ 力扣
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
编程之家
Spark
Spark学习入门
写给自己的话:对于大数据开发的工作要求,spark随时可见。所以要下定决心好好看一看spark相关的技术。学习目录:第一步是配置spark环境:包括linux系统的安装,java,ssh,Hadoop,Scala,spark的安装与环境变量设置。第二步:java学习。第三步:Hadoop学习。HDFS,MR计算框架,必须得知道吧
【原创】大数据基础之Benchmark1HiBench
HiBench7官方:https://github.com/intel-hadoop/HiBench一简介HiBenchisabigdatabenchmarksuitethathelpsevaluatedifferentbigdataframeworksintermsofspeed,throughputandsystemresourceutilizations.ItcontainsasetofHadoop,Sparkandstreami
spark流程源码解析
spark流程源码解析这篇文章是编写的spark流程笔记的入口功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也
Spark Streaming实时流处理项目6——Spark Streaming实战1
案例一:SparkStreaming处理socket数据importorg.apache.spark.SparkConfimportorg.apache.spark.streaming.{Seconds,StreamingContext}/***@authorYuZhansheng*@descSparkStreaming处理socket数据*@create2019-02-1911:26*/objectNetworkWordCoun
hadoop/spark面试题
总结于网络转自:https://www.cnblogs.com/jchubby/p/5449379.html1、简答说一下hadoop的map-reduce编程模型首先maptask会从本地文件系统读取数据,转换成key-value形式的键值对集合使用的是hadoop内置的数据类型,比如longwritable、text等将键值对集合输入mapper进行业务处理过
大数据-hive安装
1、下载Hive需要的版本我们选用的是hive-3.1.0将下载下来的hive压缩文件放到/opt/workspace/下2、解压hive-3.1.0.tar.gz文件[root@master1workspace]#tar-zxvfapache-hive-3.1.0-bin.tar.gz3、重命名[root@master1workspace]#mvapache-hive-3.1.0-binhive-3.1.0
如何防止内存溢出
5.5、spark如何防止内存溢出driver端的内存溢出可以增大driver的内存参数:spark.driver.memory(default1g)这个参数用来设置Driver的内存。在Spark程序中,SparkContext,DAGScheduler都是运行在Driver端的。对应rdd的Stage切分也是在Driver端运行,如果用户自己写的程序有过
Spark Streaming 管理 Kafka Offsets 的方式探讨
ClouderaEngineeringBlog翻译:OffsetManagementForApacheKafkaWithApacheSparkStreamingSparkStreaming应用从Kafka中获取信息是一种常见的场景。从Kafka中读取持续不断的数据将有很多优势,例如性能好、速度快。然而,用户必须管理KafkaOffsets保证SparkStreaming
spark在kafka读数并发问题
也就是修改了KafkaRDD类的getPartitions方法:原实现:overridedefgetPartitions:Array[Partition]={offsetRanges.zipWithIndex.map{case(o,i)=>val(host,port)=leaders(TopicAndPartition(o.topic,o.partition))newKafkaRDDPartition(i,o.topic,o.par
6.Spark大型电商项目-大数据环境搭建之kafka集群
目录实验环境安装scala安装kafka搭建kafka集群启动kafka集群本文主要介绍安装kafka集群实验环境scala版本:scala-2.11.6kafka版本: kafka_2.11-2.1.1.tgzkafka可以到官网下载自己需要的版本:http://kafka.apache.org/安装scala在三台机器上分别用一下命令行安装sca
大数据spark学习第一周Scala语言基础
Scala简单介绍Scala(ScalaLanguage的简称)语言是一种能够执行于JVM和.Net平台之上的通用编程语言。既可用于大规模应用程序开发,也可用于脚本编程,它由由MartinOdersk于2001开发。2004年開始程序执行在JVM与.Net平台之上。由于其简洁、优雅、类型安全的编程模式而受到关注。 Scal
大数据Spark结合图数据库Neo4j设计架构
Introduce 大数据分布式技术结合图库Neo4J项目,由于Neo4j采用单节点,性能存在以下问题:.插入速率随着图库数据增加而减少,成反比相关。.对前端页面查询点边关系,测试一条数据耗时10s以上。 所以重新设计架构,采用分布式中间件来取代单节点式Neo4j部分功能。经测
Spark之一 Spark初识
目录什么是Spark?为什么要使用Spark?Spark的架构Spark的应用场景什么是Spark? 官网地址:https://spark.apache.org/ ApacheSpark™是用于大规模数据处理的统一分析引擎。 ApacheSpark是专为大规模数据处理而设计的快速通用的计算
Spark2.3.2源码解析: 4.3.Yarn cluster 模式 Executor 启动源码 分析
本文章与前两篇文章有衔接性,想知道为什么从此处代码开始的话,请查阅前两篇文章: Spark2.3.2源码解析:4.1.Yarncluster模式SparkSubmit源码分析(一)https://blog.csdn.net/zhanglong_4444/article/details/84875818 Spark2.3.2源码解析:4.2.Yarncluster模式Spark
Cloudera Manager安装Hadoop及相关介绍
Hadoop简介Hadoop是一个由Apache基金会所开发的分布式基础结构,主要包括HDFS和MapReduce两部分,HDFS是分布式文件系统,MapReduce是一个用于大数据计算的编程模型。从Hadoop2.0开始,资源调度统一由Yarn进行管理,Yarn由ResourceManager和NodeManager两部分组成。Hadoop发行版本,主要
【大数据开发】你知道大数据语言的工具与框架吗?
为了解大数据的当前和未来状态,我们采访了来自28个组织的31位IT技术主管。我们问他们,“你在数据提取,分析和报告中使用的最流行的语言,工具和框架是什么?”以下的文章是他们告诉我们的记录,经过总结如下。Python,Spark,Kafka随着大数据和对人工智能AL/机器学习ML的推动,Scala和Python
上一页
21
22
23
24
25
26
27
28
下一页
小编推荐
• 一次彻底讲清如何处理mysql 的死锁问题
• MySQL 通过 Next-Key Locking 技术(行
• 一文彻底弄懂mysql的事务日志,undo lo
• Linux系统控制文件 /etc/sysctl.conf详
• linux命令useradd添加用户详解
• vi 和vim 的区别
• Linux系统下如何监测磁盘的使用空间
• linux中查看和开放端口
• Linux设置开放一个端口
• linux之ftp命令详解
• linux系统下实时监控进程以及定位杀死挂
• Linux下安装jdk8的方法
• 阿里云被挖矿进程wnTKYg入侵的解决方法
• 莫小安 CentOS7使用firewalld打开关闭防
• Linux中more和less命令用法
• linux系统里/opt目录和/usr/local目录的
• 如何使用Siege进行压测?
• 本地访问服务器的nacos地址
热门标签