如何解决聚集盐以抵抗偏斜
我目前正在尝试了解Salt
的概念以应对Skew
。不幸的是,我找不到足够的信息来帮助我在Spark中聚合(例如Group By
和Window
等)的背景下对Salting的概念有所了解。 sql。
到目前为止,我认为含盐聚合需要2次通过。因此,我将以下代表第一遍的代码段放在一起。但是,我无法从那里继续。有人可以帮我继续使用Spark SQL查询的几个示例吗?
通过I:
create temporary view salt1
as
select cust,item,cast(rand() * 10 as int) as salt
from tab1;
create temporary view salt2
as
select cust,item
from (select cust,row_number() over (partition by salt,cust order by purch) as row_num
from salt1
)
where row_num = 1;
感谢您的帮助。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。