手机版
热门标签
站点地图
我要投稿
广告合作
联系我们
搜 索
广告位招租
广告位招租
切换导航
首页
编程教程
编程导航
编程百科
编程博文
编程实例
常见问题
产品运营
软件教程
办公软件
栏目导航
▸ 大数据
▸ 图像处理
▸ chatgpt
▸ 文心一言
▸ DevOps
▸ Kafka
▸ Spark
▸ Dubbo
▸ NLP
▸ 力扣
公众号推荐
微信公众号搜
"智元新知"
关注
微信扫一扫可直接关注哦!
编程之家
Spark
离线和实时大数据开发实战
离线和实时大数据开发实战目录前言第一篇数据大图和数据平台大图第1章数据大图21.1数据流程21.1.1数据产生31.1.2数据采集和传输51.1.3数据存储处理61.1.4数据应用71.2数据技术81.2.1数据采集传输主要技术91.2.2数据处理主要技术101.2.3数据存储
Kafka与Spark的集成
在本章中,我们将讨论如何将ApacheKafka与SparkStreamingAPI集成.关于SparkSparkStreamingAPI支持实时数据流的可扩展,高吞吐量,容错流处理.数据可以从注入Kafka,Flume,Twitter等许多源中提取,并且可以使用复杂的算法来处理.例如地图,缩小,连接和窗口等高级功能.最后,处理的
SparkSQL——SQLContext的使用
SQLContext的使用SQLContext在Spark1.6中使用,在spark2.x中已经标记为过时,不推荐使用。示例代码packagecom.sparkimportorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.sql.SQLContext/*SQLContext的使用*/objectSQLContextAPP{defmai
[转] spark-submit 提交任务及参数说明
【From】 https://www.cnblogs.com/weiweifeng/p/8073553.html#undefined spark-submit可以提交任务到spark集群执行,也可以提交到hadoop的yarn集群执行。 1.例子一个最简单的例子,部署sparkstandalone模式后,提交到本地执行。./bin/spark-submit\--masters
Spark Transformation 算子
Java版packagecom.huanfion.Spark;importcom.sun.tools.internal.ws.processor.model.java.JavaParameter;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.
Spark Streaming 数据清理机制
大家刚开始用SparkStreaming时,心里肯定嘀咕,对于一个7*24小时运行的数据,cache住的RDD,broadcast系统会帮忙自己清理掉么?还是说必须自己做清理?如果系统帮忙清理的话,机制是啥?前言为啥要了解机制呢?这就好比JVM的垃圾回收,虽然JVM的垃圾回收已经巨牛了,但是依然会遇到很多和它相关
解决spark streaming集成kafka时只能读topic的其中一个分区数据的问题
1.问题描述我创建了一个名称为myTest的topic,该topic有三个分区,在我的应用中sparkstreaming以direct方式连接kakfa,但是发现只能消费一个分区的数据,多次更换comsumergroup依然如此。2环境配置kafka集群环境,主机IP操作系统kakfanode1192.168.1.101Centos6.5ka
Spark Streaming高级特性在NDCG计算实践
从storm到sparkstreaming,再到flink,流式计算得到长足发展,依托于spark平台的sparkstreaming走出了一条自己的路,其借鉴了spark批处理架构,通过批处理方式实现了实时处理框架。为进一步了解sparkstreaming的相关内容,飞马网于3月20日晚邀请到历任百度大数据的高级工程师—王富平,
Waterdrop:构建在Spark之上的简单高效数据处理系统
本文来自Gary和RickyHuo,他们是Waterdrop开发者,从事大数据相关工作多年,熟悉Hadoop技术体系,参与过多个大数据开源项目,目前分别供职于一下科技和新浪。Databricks开源的Apache Spark 对于分布式数据处理来说是一个伟大的进步。我们在使用 Spark 时发现了很多可圈可点之处,我
从大数据技术变迁猜一猜AI人工智能的发展
目前大数据已经成为了各家互联网公司的核心资产和竞争力了,其实不仅是互联网公司,包括传统企业也拥有大量的数据,也想把这些数据发挥出作用。在这种环境下,大数据技术的重要性和火爆程度相信没有人去怀疑。而AI人工智能又是基于大数据技术基础上发展起来的,大数据技术已经很清晰了,但是
Spark之Spark内核工作流程
这是一个较为细粒度的Spark运行流程。我们写的Spark程序叫做Application。Application会通过spark-submit来提交给Spark集群来运行。具体来说就是spark-submit会通过反射机制来创建和构造一个DriverAcor进程出来。这里的Driver就是我们的驱动程序,它负责执行我们的代码,当然在
JavaSpark入门第一例
开始学点Spark。做了第一个小例子,记录一下^_^背景有个退款文件如下:仅退款,E20190201001,I001,0.01,0.01退货退款,E20190201002,I002,0.01,0.01退货退款,E20190201003,I003,1.2,1.2退货退款,E20190201004,I004,10.9,10.9仅退款,E20190201004,I005,10.9,10.9仅退款,E201902
Spark资源调度和任务调度流程
spark运行架构Spark资源调度和任务调度的流程:1、启动集群后,Worker节点会向Master节点汇报资源情况,Master掌握了集群资源情况。2、当Spark提交一个Application后,根据RDD之间的依赖关系将Application形成一个DAG有向无环图。任务提交后,Spark会在Driver端创建两个对象:DAGSche
Spark:The Definitive Book第六章笔记
WheretoLookforAPIsDataFrame本质上是类型为Row的DataSet,需要多看https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.Dataset来发现API的更新。DataFrameStatFunctions与DataFrameNaFunctions在解决特定问题上有更多的方法。DataFrameStatF
从源码看Spark读取Hive表数据小文件和分块的问题
前言有同事问到,Spark读取一张Hive表的数据Task有一万多个,看了Hive表分区下都是3MB~4MB的小文件,每个Task只处理这么小的文件,实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定,所以他想通过repartition(num)的方式来改变分区数,结果发现读取文件的时候Task数并没
hive on spark的坑
原文地址:http://www.cnblogs.com/breg/p/5552342.html装了一个多星期的hiveonspark遇到了许多坑。还是写一篇随笔,免得以后自己忘记了。同事也给我一样苦逼的人参考。先说明一下,这里说的Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive onTez的
上一页
19
20
21
22
23
24
25
26
下一页
小编推荐
• 一次彻底讲清如何处理mysql 的死锁问题
• MySQL 通过 Next-Key Locking 技术(行
• 一文彻底弄懂mysql的事务日志,undo lo
• Linux系统控制文件 /etc/sysctl.conf详
• linux命令useradd添加用户详解
• vi 和vim 的区别
• Linux系统下如何监测磁盘的使用空间
• linux中查看和开放端口
• Linux设置开放一个端口
• linux之ftp命令详解
• linux系统下实时监控进程以及定位杀死挂
• Linux下安装jdk8的方法
• 阿里云被挖矿进程wnTKYg入侵的解决方法
• 莫小安 CentOS7使用firewalld打开关闭防
• Linux中more和less命令用法
• linux系统里/opt目录和/usr/local目录的
• 如何使用Siege进行压测?
• 本地访问服务器的nacos地址
热门标签