微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

sql – 如何从Hive组按操作符获取数组/包的元素?

我想通过给定的字段进行分组,并获得具有分组字段的输出.下面是我要实现的一个例子:

想象一下一个名为“sample_table”的表,其中包含两列如下:

F1  F2
001 111
001 222
001 123
002 222
002 333
003 555

我想写Hive Query将给出以下输出

001 [111,222,123]
002 [222,333]
003 [555]

在猪中,这样可以很容易地实现:

grouped_relation = GROUP sample_table BY F1;

有人可以建议,如果在Hive中有一个简单的方法呢?我可以想到的是写一个用户定义函数(UDF),但这可能是一个非常耗时的选项.

解决方法

内置的集合函数collect_set( doumented here)可以让你几乎成为你想要的东西.它实际上可以用于您的示例输入:
SELECT F1,collect_set(F2)
FROM sample_table
GROUP BY F1

不幸的是,它也删除了重复的元素,我想象这不是你想要的行为.我发现collect_set存在很奇怪,但没有版本保持重复. Someone else apparently thought the same thing.它看起来像顶部和第二个答案将给你你需要的UDAF.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


SELECT a.*,b.dp_name,c.pa_name,fm_name=(CASE WHEN a.fm_no='LJCG001H' THEN dbo.ELTPNAME(a.fw_nu) ELSE d.fm_name END),e.fw_state_nm,f.fw_rmk_nm
if not exists(select name from syscolumns where name='tod_no' and id=object_id('iebo09d12')) alter table iebo09d12 add tod_no varchar(
select a.*,pano=a.pa_no,b.pa_name,f.dp_name,e.fw_state_nm,g.fa_name from LJSS007H a (nolock) Left join LJPA002H b (nolock) On a.pa_no =b.pa_no Left jo
要在 SQL Server 2019 中设置定时自动重启,可以使用 Windows 任务计划程序。下面是详细的步骤: 步骤一:创建批处理文件 打开记事本。 输入以下内容: net stop "SQL Server (MSSQLSERVER)" net start "SQ
您收到的错误消息表明数据库 'EastRiver' 的事务日志已满,导致数据库操作失败。要解决这个问题,可以按照以下步骤操作: 1. 备份事务日志首先,备份事务日志以释放空间: BACKUP LOG [EastRiver] TO DISK = N'C:\Backup\East
首先我需要查询出需要使用SQL Server Profiler跟踪的数据库标识ID,若不知道怎么查询数据库的标识ID, 打开SQL Server management studio,点击工具。选择SQL Server Profiler。 登录,登录成功后,如果有个默认弹窗,先取消 新建追踪 命名
--最新的解决方法 --先创建用户帐户,不进行授权,然后通过下面的SQL语句将该用户帐户关联至对应的数据库用户。优点是避免了重新授权的操作。 USE tempdbEXEC sp_change_users_login 'Update_One', 'iemis', &#3
命令: ALTER TABLE 表名 add 列名 数据类型 default 默认值 not null 例如: ALTER TABLE LJEL005H add el_req int default 15 not null
declare @i int set @i=340 while @i<415 begin set @i=@iʱ insert into LJWK007H select '2024','28','9110','3PTSD621000000