微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

聚集盐以抵抗偏斜

如何解决聚集盐以抵抗偏斜

我目前正在尝试了解Salt的概念以应对Skew。不幸的是,我找不到足够的信息来帮助我在Spark中聚合(例如Group ByWindow等)的背景下对Salting的概念有所了解。 sql

到目前为止,我认为含盐聚合需要2次通过。因此,我将以下代表第一遍的代码段放在一起。但是,我无法从那里继续。有人可以帮我继续使用Spark SQL查询的几个示例吗?

通过I:

create temporary view salt1 
as
select cust,item,cast(rand() * 10 as int) as salt
from tab1;

create temporary view salt2
as
select cust,item
from (select cust,row_number() over (partition by salt,cust order by purch) as row_num
     from salt1
     )
where row_num = 1;

感谢您的帮助。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。