微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 bicond 获取 ID?

如何解决使用 bicond 获取 ID?

我有这个名为 joinTbl 的表格片段:

PRODUCT_ID  PRODUCT_NAME    ORDER_ID     PRODUCT_ID      CUSTOMER_ID     SALESPERSON_ID      UNIT_PRICE 
   11          CAKE           10946          11               83              1                  31
   11          CAKE           10949          11               10              2                  31
   11          CAKE           11020          11               56              2                  31
   14          CHICKEN        11076          14               9               4                  23.25
   11          CAKE           11077          11               65              1                  31
   14          CHICKEN        11077          14               65              1                  23.25

在 Pig Apache 中,如果订单同时包含蛋糕和鸡肉,我会尝试获取 ORDER_ID。预期结果是

11077

但是,我在尝试使用 bicond 来获得此 ORDER_ID 时遇到了问题。这是我使用的语法:

cakeChicken = FOREACH joinedTbl GENERATE ((PRODUCT_NAME == 'CAKE' AND PRODUCT_NAME == 'CHICKEN') ? ORDER_ID : 0) AS order_both;

由此返回的只是 0,这是 else 语句。

我做错了什么?

解决方法

您的 bincond 工作正常 - 因为它在 FOREACH 内,它将单独检查每一行数据。因此,每一行只有一个 PRODUCT_NAME 值,所以它不能同时是 'CAKE''CHICKEN'

根据您想要执行的操作,我会 use GROUP BYORDER_ID 上分组,然后 filterPRODUCT_NAME 袋子放入包含 'CAKE' 的袋子和 'CHICKEN' 使用 nested foreach。最后,过滤数据到“非空”袋子。像这样:

groupedData = GROUP  joinTbl BY ORDER_ID;

/* Structure:
---------------------------------------------------------------------------------------------------------------------------------
| groupedData | group | joinTbl: bag({PRODUCT_ID,PRODUCT_NAME,ORDER_ID,PRODUCT_ID,CUSTOMER_ID,SALESPERSON_ID,UNIT_PRICE}) |
---------------------------------------------------------------------------------------------------------------------------------
|             | 10946 | {(11,CAKE,10946,11,83,1,31)}                                                                      |
|             | 11077 | {(11,11077,65,31),(14,CHICKEN,14,23.25)}                             |
---------------------------------------------------------------------------------------------------------------------------------
*/

cakeChickenIds = FOREACH groupedData {
    cakes = FILTER joinTbl BY PRODUCT_NAME == 'CAKE';
    chickens = FILTER joinTbl BY PRODUCT_NAME == 'CHICKEN';
    GENERATE group AS ORDER_ID,cakes,chickens;
}

/* Structure:
------------------------------------------------------------------------------------------
| cakeChickenIds | ORDER_ID | cakes: bag({PRODUCT_NAME}) | chickens: bag({PRODUCT_NAME}) |
------------------------------------------------------------------------------------------
|                | 10946    | {(CAKE)}                   | {()}                          |
|                | 11077    | {(CAKE)}                   | {(CHICKEN)}                   |
------------------------------------------------------------------------------------------
*/

-- Both cakes and chickens bags will not be empty if ordered both
cakeChickenOrders = FILTER cakeChickenIds BY NOT IsEmpty(cakes) AND NOT IsEmpty(chickens);

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?