手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程博文
编程实例
常见问题
产品运营
软件教程
办公软件
栏目导航
▸ 大数据
▸ 图像处理
▸ chatgpt
▸ 文心一言
▸ DevOps
▸ Kafka
▸ Spark
▸ Dubbo
▸ NLP
▸ 力扣
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
编程之家
Spark
spark
Spark环境搭建CentosSpark单机版伪分布式模式Spark单机版intelij开发(maven)Spark完全分布式集群搭建Sparkhistoryserver配置使用二种方法实现Spark计算WordCountSparkCoreSpark常用Transformations算子(一)Spark常用Transformations算子(二)Spark常用Actions算子Spark
列式存储kudu基于spark的操作
1、通过kudu客户端创建表val kuduContext= new KuduContext("kuduMaster:7051",sc)val sQLContext= new SQLContext(sc)val kuduTableName= "spark_kudu_table"val kuduOptions:Map[String,String]= Map( "kudu.table" ->kuduTableName, &
【总结】Spark应用程序的资源分配
执行Spark任务,资源分配是很重要的一方面。如果配置不准确,Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。怎么去配置Spark任务的executors,cores,memory,有如下几个因素需要考虑:数据量任务完成时间点静态或者动态的资源分配上下游应用Spark应用当中术语的基本定义
02-spark sql
1、概念SparkSQL是一个用来处理结构化数据的Spark组件。优点: ①SparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后在Spark集群中运行 ②SparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据)
Spark day06
SparkStreaming简介SparkStreaming是流式处理框架,是SparkAPI的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka,Flume,Twitter,ZeroMQ或者TCPsockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window。最终,处理后的数据可
Spark初步 从wordcount开始
Spark初步-从wordcount开始spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅。准备工作把README.md文件复制到当前的文件目录,启动jupyter,编写我们的代码。README.md文件在Spark的根目录下。frompyspark.sqlimportSparkSessionfromo
Spark Streaming 快速入门
一.简介1.便于使用SparkStreaming将ApacheSpark的 语言集成API 引入流处理,使您可以像编写批处理作业一样编写流式作业。它支持Java,Scala和Python。2.容错SparkStreaming可以开箱即用,恢复丢失的工作和操作状态【例如滑动窗口】,而无需任何额外的代
Java8函数式编程二:类比Spark RDD算子的Stream流操作
1Stream流对集合进行迭代时,可调用其iterator方法,返回一个iterator对象,之后便可以通过该iterator对象遍历集合中的元素,这被称为外部迭代(for循环本身正是封装了其的语法糖),其示意图如下:除此之外,还有内部迭代方法,这正是这里要说明的集合的stream()方法返回的Stream对象的一系列操作
Apache Spark 3.0 将内置支持 GPU 调度
如今大数据和机器学习已经有了很大的结合,在机器学习里面,因为计算迭代的时间可能会很长,开发人员一般会选择使用GPU、FPGA或TPU来加速计算。在ApacheHadoop3.1版本里面已经开始内置原生支持GPU和FPGA 了。作为通用计算引擎的 Spark 肯定也不甘落后,来自Databricks
Spark菜鸟记录
1、RDD[(k,v)]join()优化,join之前会对两个RDD的key做hash,通过网络把相同hash值的数据传到同一个节点,因此对多次join的RDD做预分区与持久化可提高效率。map()操作会失去父RDD的信息,因为key值有可能发生改变,但 mapValues()、flatMapValues()不会。多父RDD已分区,默认采取第一个父R
spark actions 算子
packageaction;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.Function2;importorg.apache.
大数据技术学习,大数据处理为何选择Spark,而不是Hadoop
在这里还是要推荐下我自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正在学习大数据,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入
【sparkSQL】SparkSession的认识
https://www.cnblogs.com/zzhangyuhang/p/9039695.html 在Spark1.6中我们使用的叫Hiveonspark,主要是依赖hive生成spark程序,有两个核心组件SQLcontext和HiveContext。这是Spark1.x版本的语法12345//setupthesparkconfigurationandcreatecontexts v
spark2.0新特性--执行计划
spark2.0出现了Dataset,一个更加智能的RDD(本质上还是RDD)。这个Dataset操作更加1.简单:支持标准SQL和简化的API2.执行速度更快:spark作为一个编译器3.也更加智能:Dataset结构化数据流但是这个Dataset究竟怎么智能了呢?Dataset相比RDD改进的一个重要的地方就是这个Dataset执行
Spark常见故障诊断一
本人维护的Spark主要运行在三个Hadoop集群上,此外还有其他一些小集群或者隐私集群。这些机器加起来有三万台左右。目前运维的Spark主要有Spark2.3和Spark1.6两个版本。用户在使用的过程中难免会发生各种各样的问题,为了对经验进行沉淀,也为了给Spark用户提供一些借鉴,这里将对各类
Spark Shuffle 中 JVM 内存使用及配置内幕详情
引言Spark从1.6.x开始对JVM的内存使用作出了一种全新的改变,Spark1.6.x以前是基于静态固定的JVM内存使用架构和运行机制,如果你不知道Spark到底对JVM是怎么使用,你怎么可以很有信心地或者是完全确定地掌握和控制数据的缓存空间呢,所以掌握Spark对JVM的内存使用内幕是至关
上一页
25
26
27
28
29
30
31
32
下一页
小编推荐
• 一次彻底讲清如何处理mysql 的死锁问题
• MySQL 通过 Next-Key Locking 技术(行
• 一文彻底弄懂mysql的事务日志,undo lo
• Linux系统控制文件 /etc/sysctl.conf详
• linux命令useradd添加用户详解
• vi 和vim 的区别
• Linux系统下如何监测磁盘的使用空间
• linux中查看和开放端口
• Linux设置开放一个端口
• linux之ftp命令详解
• linux系统下实时监控进程以及定位杀死挂
• Linux下安装jdk8的方法
• 阿里云被挖矿进程wnTKYg入侵的解决方法
• 莫小安 CentOS7使用firewalld打开关闭防
• Linux中more和less命令用法
• linux系统里/opt目录和/usr/local目录的
• 如何使用Siege进行压测?
• 本地访问服务器的nacos地址
热门标签