Spark - 编程之家

AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Spark环境搭建CentosSpark单机版伪分布式模式Spark单机版intelij开发(maven)Spark完全分布式集群搭建Sparkhistoryserver配置使用二种方法实现Spark计算WordCountSparkCoreSpark常用Transformations算子(一)Spark常用Transformations算子(二)Spark常用Actions算子Spark

列式存储kudu基于spark的操作

1、通过kudu客户端创建表val kuduContext= new KuduContext("kuduMaster:7051",sc)val sQLContext= new SQLContext(sc)val kuduTableName= "spark_kudu_table"val kuduOptions:Map[String,String]= Map( "kudu.table" ->kuduTableName, &

【总结】Spark应用程序的资源分配

执行Spark任务，资源分配是很重要的一方面。如果配置不准确，Spark任务将耗费整个集群的机缘导致其他应用程序得不到资源。怎么去配置Spark任务的executors，cores，memory，有如下几个因素需要考虑：数据量任务完成时间点静态或者动态的资源分配上下游应用Spark应用当中术语的基本定义

1、概念SparkSQL是一个用来处理结构化数据的Spark组件。优点： ①SparkSQL是一个SQL解析引擎，将SQL解析成特殊的RDD（DataFrame），然后在Spark集群中运行 ②SparkSQL是用来处理结构化数据的（先将非结构化的数据转换成结构化数据）

SparkStreaming简介SparkStreaming是流式处理框架，是SparkAPI的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka,Flume,Twitter,ZeroMQ或者TCPsockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduce,join,window。最终，处理后的数据可

Spark初步从wordcount开始

Spark初步-从wordcount开始spark中自带的example，有一个wordcount例子，我们逐步分析wordcount代码，开始我们的spark之旅。准备工作把README.md文件复制到当前的文件目录，启动jupyter，编写我们的代码。README.md文件在Spark的根目录下。frompyspark.sqlimportSparkSessionfromo

Spark Streaming 快速入门

一.简介1.便于使用SparkStreaming将ApacheSpark的语言集成API 引入流处理，使您可以像编写批处理作业一样编写流式作业。它支持Java，Scala和Python。2.容错SparkStreaming可以开箱即用，恢复丢失的工作和操作状态【例如滑动窗口】，而无需任何额外的代

Java8函数式编程二：类比Spark RDD算子的Stream流操作

1Stream流对集合进行迭代时，可调用其iterator方法，返回一个iterator对象，之后便可以通过该iterator对象遍历集合中的元素，这被称为外部迭代（for循环本身正是封装了其的语法糖），其示意图如下：除此之外，还有内部迭代方法，这正是这里要说明的集合的stream()方法返回的Stream对象的一系列操作

Apache Spark 3.0 将内置支持 GPU 调度

如今大数据和机器学习已经有了很大的结合，在机器学习里面，因为计算迭代的时间可能会很长，开发人员一般会选择使用GPU、FPGA或TPU来加速计算。在ApacheHadoop3.1版本里面已经开始内置原生支持GPU和FPGA 了。作为通用计算引擎的 Spark 肯定也不甘落后，来自Databricks

Spark菜鸟记录

1、RDD[(k,v)]join()优化，join之前会对两个RDD的key做hash，通过网络把相同hash值的数据传到同一个节点，因此对多次join的RDD做预分区与持久化可提高效率。map()操作会失去父RDD的信息，因为key值有可能发生改变，但 mapValues()、flatMapValues()不会。多父RDD已分区，默认采取第一个父R

spark actions 算子

packageaction;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.Function2;importorg.apache.

大数据技术学习，大数据处理为何选择Spark，而不是Hadoop

在这里还是要推荐下我自己建的大数据学习交流群:199427210，群里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入,大家都是软件开发党，不定期分享干货（只有大数据软件开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴加入

【sparkSQL】SparkSession的认识

https://www.cnblogs.com/zzhangyuhang/p/9039695.html 在Spark1.6中我们使用的叫Hiveonspark，主要是依赖hive生成spark程序，有两个核心组件SQLcontext和HiveContext。这是Spark1.x版本的语法12345//setupthesparkconfigurationandcreatecontexts v

spark2.0新特性－－执行计划

spark2.0出现了Dataset，一个更加智能的RDD（本质上还是RDD）。这个Dataset操作更加1.简单：支持标准SQL和简化的API２.执行速度更快：spark作为一个编译器３.也更加智能：Dataset结构化数据流但是这个Dataset究竟怎么智能了呢？Dataset相比RDD改进的一个重要的地方就是这个Dataset执行

Spark常见故障诊断一

本人维护的Spark主要运行在三个Hadoop集群上，此外还有其他一些小集群或者隐私集群。这些机器加起来有三万台左右。目前运维的Spark主要有Spark2.3和Spark1.6两个版本。用户在使用的过程中难免会发生各种各样的问题，为了对经验进行沉淀，也为了给Spark用户提供一些借鉴，这里将对各类

Spark Shuffle 中 JVM 内存使用及配置内幕详情

引言Spark从1.6.x开始对JVM的内存使用作出了一种全新的改变，Spark1.6.x以前是基于静态固定的JVM内存使用架构和运行机制，如果你不知道Spark到底对JVM是怎么使用，你怎么可以很有信心地或者是完全确定地掌握和控制数据的缓存空间呢，所以掌握Spark对JVM的内存使用内幕是至关

上一页 25 26 27 282930 31 32 下一页

小编推荐

热门标签