手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程博文
编程实例
常见问题
产品运营
软件教程
办公软件
栏目导航
▸ 大数据
▸ 图像处理
▸ chatgpt
▸ 文心一言
▸ DevOps
▸ Kafka
▸ Spark
▸ Dubbo
▸ NLP
▸ 力扣
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
编程之家
Spark
学习大数据必须要掌握的技术,给初学者支招
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。对于小白学习大数据需
spark submit参数及调优
两天面试两次被问到submit参数调优这一块,平时都是直接使用没有深入去理解,有点被问的一脸懵的感觉,刚好周末来整理一下这一块的内容,充实一下。首先学习当然要去官网了这里是官网给的一个例子:./bin/spark-submit\--class<main-class>\--master<master-url>\--d
Spark Streaming+Kafka提交offset实现有且仅有一次(exactly-once)
前言本文讲SparkStreamming使用Direct方式读取Kafka,并在输出(存储)操作之后提交offset到Kafka里实现程序读写操作有且仅有一次,即程序重启之后之前消费并且输出过的数据不再重复消费,接着上次消费的位置继续消费Kafka里的数据。SparkStreamming+Kafka官方文档:http://spark.apache
大数据学习入门规划?
大数据方向的工作目前分为三个主要方向:01.大数据工程师02.数据分析师03.大数据科学家04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧)一、大数据工程师的技能要求二、大数据学习路径很多初学者,对大数据的概念都是模糊不清的,大数据是什么
spark 调优参数
最近用到spark接kafka数据落到kudu里,如果用默认spark参数,会出现一些问题,下面是在生产上调优后的一些参数,供参考//推测执行spark.locality.wait=2sspark.speculation=truespark.speculation.interval=300sspark.speculation.quantile=0.9spark.speculation.multiplier=1.5//常见
spark记录7SparkCore的调优之数据倾斜调优
摘抄自:https://www.cnblogs.com/qingyunzong/p/8946637.html数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数
一文快速了解MaxCompute
很多刚初次接触MaxCompute的用户,面对繁多的产品文档内容以及社区文章,往往很难快速、全面了解MaxCompute产品全貌。同时,很多拥有大数据开发经验的开发者,也希望能够结合自身的背景知识,将MaxCompute产品能力与开源项目、商业软件之间建立某种关联和映射,以快速寻找或判断MaxCompute是否
大数据怎么学习?从零开始大数据学习路线
大数据、人工智能的崛起,都让很多人看到了信息技术的日新月异,也推动了更多传统型企业逐渐往互联网企业转型。如何更好的去分析客户群体,去抓住自己的客户所需,是离不开大数据的帮助的!为此,也有越来越多的企业看到大数据程序员岗位的重要性,不断的招兵买马,以求让自己的企业能够在这信息
pyspark向lzo格式hive表插入数据
1.在执行插入之前,必须要指定参数spark.sql("sethive.exec.dynamic.partition.mode=nonstrict")spark.sql('''setmapred.output.compress=true''')spark.sql('''sethive.exec.compress.output=true''')spark.
spark报错解决
19/03/0418:18:42ERRORShell:Failedtolocatethewinutilsbinaryinthehadoopbinarypathjava.io.IOException:Couldnotlocateexecutablenull\bin\winutils.exeintheHadoopbinaries. 查看Hadoop安装目录下是否缺少文件或者是查看环境变量的配置是否出错
四、Spark性能优化:shuffle调优
转自:https://blog.csdn.net/u012102306/article/details/51637732shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调
数据科学&高级分析 (Data science & advanced analytics)
11:15–11:55Friday,2017-07-14使用R和ApacheSpark处理大规模数据(ScalingRfasterandlargerusingApacheSpark)地点: 多功能厅5B+C(FunctionRoom5B+C)观众水平(Level):中级(Intermediate)XiaoyongZhu (Microsoft)平均得分:: (5.00,1次得分)Risapopu
scala spark dataframe添加序号id列
在spark的开发中,经常会出现需要为dataframe添加id列的地方,特别对于一些需要存到关系型数据库中的结果,话不多说,下面直接上代码。1、初始化: valsparks=SparkSession.builder .master("local[4]") .appName("test
进阶-第19__深度探秘搜索技术_混合使用match和近似匹配实现召回率与精准度的平衡
召回率定义 比如你搜索一个javaspark,总共有100个doc,能返回多少个doc作为结果,就是召回率,recall 精准度定义 比如你搜索一个javaspark,能不能尽可能让包含javaspark,或者是java和spark离的很近的doc,排在最前面,precision 直接用match_phrase短语搜索,会导致必须所有ter
spark使用java代码实现foreachPartition
System.setProperty("hadoop.home.dir","h:\\hadoop2.3.7");stringmastor="local"stringname="wordcount"+system.currentTimeMillis()sparkSeesionspark=sparkSeesion.builder().appName(neme).master(mastor).getOrCreate(
剖析Hadoop和Spark的Shuffle过程差异一
一、前言对于基于MapReduce编程范式的分布式计算来说,本质上而言,就是在计算数据的交、并、差、聚合、排序等过程。而分布式计算分而治之的思想,让每个节点只计算部分数据,也就是只处理一个分片,那么要想求得某个key对应的全量数据,那就必须把相同key的数据汇集到同一个Reduc
上一页
22
23
24
25
26
27
28
29
下一页
小编推荐
• 一次彻底讲清如何处理mysql 的死锁问题
• MySQL 通过 Next-Key Locking 技术(行
• 一文彻底弄懂mysql的事务日志,undo lo
• Linux系统控制文件 /etc/sysctl.conf详
• linux命令useradd添加用户详解
• vi 和vim 的区别
• Linux系统下如何监测磁盘的使用空间
• linux中查看和开放端口
• Linux设置开放一个端口
• linux之ftp命令详解
• linux系统下实时监控进程以及定位杀死挂
• Linux下安装jdk8的方法
• 阿里云被挖矿进程wnTKYg入侵的解决方法
• 莫小安 CentOS7使用firewalld打开关闭防
• Linux中more和less命令用法
• linux系统里/opt目录和/usr/local目录的
• 如何使用Siege进行压测?
• 本地访问服务器的nacos地址
热门标签