如何解决随时间处理增量数据的Spark数据处理
我的数据集列看起来像
date
categorycol1
categorycol2
categorycol10
.. valuecol1
valuecol2
valuecol1000
.. valuecol1
现在,我每天都要记录一次数据流,该数据流每天都在作为文件夹排列的HDFS中流动。 因此,人们可以读取每个文件夹来获取当天的数据。
valuecol2
和device1
是递增计数器,表示它们仅递增。为了获得合理的价值,我们必须获得一个增量。
例如,对于valuecol1
,我们需要获取date2
和date1
登录的calculation1
之间的区别。
还计算新值,例如
difference between valuecol1 logged at date2 and date1
= difference between valuecol2 logged at date2 and date1
+ mean
现在,最后,我们收集诸如std
,media
和join
问题:时间序列并不像股票行情自动收录器数据那样并置
以下操作会导致很多随机播放
- 使用
date
与数据集本身在不同的groubbykey
进行连接以获取差异 -
reducebykey
和void main() { //this is an example like a json response List<Map<String,dynamic>> articleResponse = [ { "id":"1","name":"test1" },{ "id":"2","name":"test2" } ]; List<Article> articles = List<Article>.from(articleResponse.map((Map art)=>Article.fromJson(art))) .toList(); print('${articles.length} articles in the list!! use to render de ui list'); } class Article{ String id; String name; Article({this.id,this.name}); factory Article.fromJson(Map<String,dynamic> json) { return Article( id: json['id'],name: json['name'],); } }
用于获取有关cols类别的汇总
您能建议处理这种数据处理的最佳策略吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。