使用查询结果作为 Elasticsearch DSL 中另一个查询的参数 从评论中提取的原始问题答案:一般来说,Elasticsearch 中既不是 application-side joins 也不是 subqueries are supported

如何解决使用查询结果作为 Elasticsearch DSL 中另一个查询的参数 从评论中提取的原始问题答案:一般来说,Elasticsearch 中既不是 application-side joins 也不是 subqueries are supported

我正在使用 Elasticsearch DSL,我正在尝试使用查询结果作为另一个查询的参数,如下所示:

{
  "query": {
    "bool": {
      "must_not": {
        "terms": {
          "request_id": {
            "query": {
              "match": {
                "processing.message": "OUT Followup Synthesis"
              }
            },"fields": [
              "request_id"
            ],"_source": false
          }
        }
      }
    }
  }
}

正如您在上面看到的,我正在尝试搜索request_id 不是 request_ids 中的 processing.message 的来源之一,其中 OUT Followup Synthesis 等于 Error loading data [x_content_parse_exception] [1:1660] [terms_lookup] unkNown field [query]

我在此查询中遇到错误

{{1}}

如何使用 Elasticsearch DSL 实现我的目标?

解决方法

从评论中提取的原始问题

我正在尝试获取带有 processing.message 等于“IN Followup Sythesis”的数据,而它们的 request_id 没有出现在 processing.message 等于“OUT Followup Sythesis”的数据中。在 SQL 语言中:

SELECT d FROM   data d
WHERE  d.processing.message = 'IN Followup Sythesis'
       AND d.request_id NOT IN (SELECT request_id FROM data WHERE processing.message = 'OUT Followup Sythesis'); 

答案:一般来说,Elasticsearch 中既不是 application-side joins 也不是 subqueries are supported

因此,您必须运行第一个查询,获取检索到的 ID 并将它们放入第二个查询中 — 理想情况下为 terms query


当然,这个限制可以通过“劫持”scripted metric aggregation来克服。

以这3个文件为例:

POST reqs/_doc
{"request_id":"abc","processing":{"message":"OUT Followup Synthesis"}}

POST reqs/_doc
{"request_id":"abc","processing":{"message":"IN Followup Sythesis"}}

POST reqs/_doc
{"request_id":"xyz","processing":{"message":"IN Followup Sythesis"}}

你可以跑

POST reqs/_search
{
  "size": 0,"query": {
    "match": {
      "processing.message": "IN Followup Sythesis"
    }
  },"aggs": {
    "subquery_mock": {
      "scripted_metric": {
        "params": {
          "disallowed_msg": "OUT Followup Synthesis"
        },"init_script": "state.by_request_ids = [:]; state.disallowed_request_ids = [];","map_script": """
          def req_id = params._source.request_id;
          def msg = params._source.processing.message;
          
          if (msg.contains(params.disallowed_msg)) {
            state.disallowed_request_ids.add(req_id);
            // won't need this particular doc so continue looping
            return;
          }
          
          if (state.by_request_ids.containsKey(req_id)) {
            // there may be multiple docs under the same ID
            // so concatenate them
            state.by_request_ids[req_id].add(params._source);
          } else {
            // initialize an appendable arraylist
            state.by_request_ids[req_id] = [params._source];
          }
        ""","combine_script": """
          state.by_request_ids.entrySet()
            .removeIf(entry -> state.disallowed_request_ids.contains(entry.getKey()));
          return state.by_request_ids
        ""","reduce_script": "return states"
      }
    }
  }
}

它只会返回正确的请求:

"aggregations" : {
  "subquery_mock" : {
    "value" : [
      {
        "xyz" : [
          {
            "processing" : { "message" : "IN Followup Sythesis" },"request_id" : "xyz"
          }
        ]
      }
    ]
  }
}

⚠️ 这几乎肯定会很慢,并且违背了 not accessing the _source field 的建议指导。但这也表明子查询是可以“模拟”的。

? 我建议在让它针对整个索引之前在较小的文档集上测试这个脚本——也许通过日期 range query 或类似的日期来限制它。


仅供参考 Elasticsearch 公开了一个 SQL API,尽管它仅通过付费产品 X-Pack 提供。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?