Spark - 编程之家

AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

Spark学习入门

写给自己的话：对于大数据开发的工作要求，spark随时可见。所以要下定决心好好看一看spark相关的技术。学习目录：第一步是配置spark环境：包括linux系统的安装，java，ssh，Hadoop，Scala，spark的安装与环境变量设置。第二步：java学习。第三步：Hadoop学习。HDFS，MR计算框架，必须得知道吧

【原创】大数据基础之Benchmark1HiBench

HiBench7官方：https://github.com/intel-hadoop/HiBench一简介HiBenchisabigdatabenchmarksuitethathelpsevaluatedifferentbigdataframeworksintermsofspeed,throughputandsystemresourceutilizations.ItcontainsasetofHadoop,Sparkandstreami

spark流程源码解析

spark流程源码解析这篇文章是编写的spark流程笔记的入口功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也

Spark Streaming实时流处理项目6——Spark Streaming实战1

案例一：SparkStreaming处理socket数据importorg.apache.spark.SparkConfimportorg.apache.spark.streaming.{Seconds,StreamingContext}/***@authorYuZhansheng*@descSparkStreaming处理socket数据*@create2019-02-1911:26*/objectNetworkWordCoun

hadoop/spark面试题

总结于网络转自：https://www.cnblogs.com/jchubby/p/5449379.html1、简答说一下hadoop的map-reduce编程模型首先maptask会从本地文件系统读取数据，转换成key-value形式的键值对集合使用的是hadoop内置的数据类型，比如longwritable、text等将键值对集合输入mapper进行业务处理过

大数据-hive安装

1、下载Hive需要的版本我们选用的是hive-3.1.0将下载下来的hive压缩文件放到/opt/workspace/下2、解压hive-3.1.0.tar.gz文件[root@master1workspace]#tar-zxvfapache-hive-3.1.0-bin.tar.gz3、重命名[root@master1workspace]#mvapache-hive-3.1.0-binhive-3.1.0

如何防止内存溢出

5.5、spark如何防止内存溢出driver端的内存溢出可以增大driver的内存参数：spark.driver.memory(default1g)这个参数用来设置Driver的内存。在Spark程序中，SparkContext，DAGScheduler都是运行在Driver端的。对应rdd的Stage切分也是在Driver端运行，如果用户自己写的程序有过

Spark Streaming 管理 Kafka Offsets 的方式探讨

ClouderaEngineeringBlog翻译：OffsetManagementForApacheKafkaWithApacheSparkStreamingSparkStreaming应用从Kafka中获取信息是一种常见的场景。从Kafka中读取持续不断的数据将有很多优势，例如性能好、速度快。然而，用户必须管理KafkaOffsets保证SparkStreaming

spark在kafka读数并发问题

也就是修改了KafkaRDD类的getPartitions方法：原实现：overridedefgetPartitions:Array[Partition]={offsetRanges.zipWithIndex.map{case(o,i)=>val(host,port)=leaders(TopicAndPartition(o.topic,o.partition))newKafkaRDDPartition(i,o.topic,o.par

6.Spark大型电商项目-大数据环境搭建之kafka集群

目录实验环境安装scala安装kafka搭建kafka集群启动kafka集群本文主要介绍安装kafka集群实验环境scala版本：scala-2.11.6kafka版本： kafka_2.11-2.1.1.tgzkafka可以到官网下载自己需要的版本：http://kafka.apache.org/安装scala在三台机器上分别用一下命令行安装sca

大数据spark学习第一周Scala语言基础

Scala简单介绍Scala(ScalaLanguage的简称)语言是一种能够执行于JVM和.Net平台之上的通用编程语言。既可用于大规模应用程序开发，也可用于脚本编程，它由由MartinOdersk于2001开发。2004年開始程序执行在JVM与.Net平台之上。由于其简洁、优雅、类型安全的编程模式而受到关注。 Scal

大数据Spark结合图数据库Neo4j设计架构

Introduce 大数据分布式技术结合图库Neo4J项目，由于Neo4j采用单节点，性能存在以下问题：.插入速率随着图库数据增加而减少，成反比相关。.对前端页面查询点边关系，测试一条数据耗时10s以上。所以重新设计架构，采用分布式中间件来取代单节点式Neo4j部分功能。经测

Spark之一 Spark初识

目录什么是Spark？为什么要使用Spark？Spark的架构Spark的应用场景什么是Spark？官网地址:https://spark.apache.org/ ApacheSpark™是用于大规模数据处理的统一分析引擎。 ApacheSpark是专为大规模数据处理而设计的快速通用的计算

Spark2.3.2源码解析： 4.3.Yarn cluster 模式 Executor 启动源码分析

本文章与前两篇文章有衔接性,想知道为什么从此处代码开始的话,请查阅前两篇文章: Spark2.3.2源码解析：4.1.Yarncluster模式SparkSubmit源码分析（一）https://blog.csdn.net/zhanglong_4444/article/details/84875818 Spark2.3.2源码解析：4.2.Yarncluster模式Spark

Cloudera Manager安装Hadoop及相关介绍

Hadoop简介Hadoop是一个由Apache基金会所开发的分布式基础结构，主要包括HDFS和MapReduce两部分，HDFS是分布式文件系统，MapReduce是一个用于大数据计算的编程模型。从Hadoop2.0开始，资源调度统一由Yarn进行管理，Yarn由ResourceManager和NodeManager两部分组成。Hadoop发行版本，主要

【大数据开发】你知道大数据语言的工具与框架吗？

为了解大数据的当前和未来状态，我们采访了来自28个组织的31位IT技术主管。我们问他们，“你在数据提取，分析和报告中使用的最流行的语言，工具和框架是什么？”以下的文章是他们告诉我们的记录，经过总结如下。Python，Spark，Kafka随着大数据和对人工智能AL/机器学习ML的推动，Scala和Python

上一页 21 22 23 242526 27 28 下一页

小编推荐

热门标签