Spark - 编程之家

AI导航网

栏目导航

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

spark-submit部署应用的相关参数详解

a.[--master]:表示要连接的集群管理器spark://host:port:连接到指定端口的Spark独立集群上。默认情况下Spark独立主节点使用7077端口 mesos://host:port:连接到指定端口的Mesos集群上。默认情况下Mesos主节点监听5050端口 yarn:连接到一个YARN集群

Spark版本升级二三事

起因：部门准备将数据仓库开发工具从HiveSQL大规模迁移至SparkSQL。此前集群已经自带了Spark-1.5.2，系HDP-2.3.4自带的Spark组件，现在需要将之升级到目前的最新版本（2.2.1）。作为一个提供给第三方使用的开发工具，应该避免第三方过度浪费时间于工具本身的使用（为SQL任务调试合理的资源

Spark_RDD的持久化

RDD的持久化方法：cache()或者persist()做实验：同一个160M文件进行计算它的行数：文件小的时候没有差距，文件大的时候差距很明显第一次计算两次（未持久化）：时间差不多第二次计算两次（持久化）：时间第一次长，第二次却很短这是因为第一次的时候进行持久化，而第二次的时候已经持久化过了

Spark SQL Join原理分析

SparkSQLJoin原理分析1.Join问题综述：Join有inner,leftouter,rightouter,fullouter,leftsemi,leftanti六种类型，对单独版本的Join操作，可以将问题表述为：IterA，IterB为两个Iterator，根据规则A将两个Iterator中相应的Row进行合并，然后按照规则B对合并后Row进行过滤。比如Inner_join，

Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission d

保存文件时权限被拒绝曾经踩过的坑：保存结果到hdfs上没有写的权限通过修改权限将文件写入到指定的目录下 * * *$HADOOP_HOME/bin/hdfsdfs-chmod777/user * * *Exceptioninthread"main"org.apache.hadoop.security.AccessControlException: *Permi

回归算法之逻辑回归

线性回归与逻辑回归的区别：比如要分析年龄，性别，身高，饮食习惯对于体重的影响，如果体重是实际的重量，那么就要使用线性回归。如果将体重分类，分成了高，中，低三类，就要使用逻辑回归进行分类。importorg.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS}importorg.a

Hadoop2.7.3集群安装scala-2.12.8 和spark2.7

ApacheSpark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapRedu

0基础学习大数据你需要了解的学习路线和方向

现在大数据这么火，各行各业想转行大数据，那么问题来了，该往哪方面发展，哪方面最适合自己？首先从字面来了解一下大数据大数据（巨量数据集合（IT行业术语））大数据（bigdata），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察

基于Spark的GBDT + LR模型实现

目录基于Spark的GBDT+LR模型实现数据预处理部分GBDT模型部分(省略调参部分)GBDT与LR混合部分基于Spark的GBDT+LR模型实现测试数据来源http://archive.ics.uci.edu/ml/machine-learning-databases/adult/该模型利用Sparkmllib的GradientBoostedTrees作为GBDT部分

Spark LDA 实例

SparkLDA实例一、准备数据数据格式为：documents:RDD[(Long,Vector)]，其中：Long为文章ID，Vector为文章分词后的词向量；通过分词以及数据格式的转换，转换成RDD[(Long,Vector)]即可。二、建立模型importorg.apache.spark.mllib.clustering._valldaOptimizer=newOnlineLDAOpt

Apache Spark 内存管理详解

Spark作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理，有助于更好地开发Spark应用程序和进行性能调优。本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于

windows 客户端使用IDEA远程调试Linux中 spark 代码

1.修改配置文件在spark-env.sh,添加一行配置，内容如下：exportSPARK_MASTER_OPTS="-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=10000"注意调试端口为10000，在客户端调试是也使用该端口号。2.客户端远程链接并调试客户端使用IDEA进行远程调试Linu

新书《深入理解Kafka：核心设计与实践原理》上架，感谢支持~

新书上架初识Kafka时，笔者接触的还是0.8.1版本，Kafka发展到目前的2.x版本，笔者也见证了Kafka的蜕变，比如旧版客户端的淘汰、新版客户端的设计、Kafka控制器的迭代优化、私有协议的变更、事务功能的引入等。Kafka从昔日的新星逐渐走向成熟，再到今日的王者地位不可撼动，这期

spark history server配置使用

问题描述在Spark安装成功后，无论是通过spark-submit工具还是通过IntellijIDEA提交任务，只要在Spark应用程序运行期间，都可以通过WebUI控制台页面来查看具体的运行细节，在浏览器中通过地址：http://<driver-node>:4040即可查看当前的运行状态。但是一旦应用程序运行结束，该Web界面也就

Spark面对OOM问题的解决方法及优化总结

转载请保持完整性并注明来源链接： http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，mapPatitions等。shuffl

大数据知识点分享：大数据平台应用 17 个知识点汇总

一、大数据中的数据仓库和Mpp数据库如何选型?在Hadoop平台中，一般大家都把hive当做数据仓库的一种选择，而Mpp数据库的典型代表就是impala，presto。Mpp架构的数据库主要用于即席查询场景，暨对数据查询效率有较高要求的场景，而对数据仓库的查询效率要求无法做大MPP那样，所以更多地适用与离

上一页 20 21 22 232425 26 27 下一页

小编推荐

热门标签