微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

有没有办法选择 n 个存储桶,并使用存储桶的 doc_count 的范围过滤器以一种“即时”跳过存储桶的方式应用

如何解决有没有办法选择 n 个存储桶,并使用存储桶的 doc_count 的范围过滤器以一种“即时”跳过存储桶的方式应用

事实

  1. 我们有大约 1000 万家公司发布的大约 8500 万份文件(索引大小为 93GB)
  2. 一家公司创建一个存储桶,因此大约有 1000 万个存储桶。

什么效果

当对公司字段使用 termAggregation 进行聚合时,结果将毫无问题地返回,首先列出符合用户输入的特定条件的大多数文档的公司。 前 6 个 1000 个桶的 doc_counts 示例(设置了 size=1000)

  • company_a:45000
  • company_b:40000
  • company_c:38000
  • company_d:35000
  • company_e:32000
  • company_f:31000

什么不起作用

仅选择具有某些最大和最小大小的存储桶(例如,最小:31000,最大:32000)。这无法在 termAggregation 级别实现,因为此选项不可用。

此处 termAggregation 的唯一选项是“min_doc_count”,但没有“max_doc_count”。

更新:我已经使用此功能 (WIP) 在 ElasticSearch 的 github 上创建了 PR

不是解决方

  1. 这里不能使用Bucket select聚合,因为总bucket大小太大(超过1000万家公司-应该考虑所有bucket)。想象一下,我们需要选择 100-1000 范围内的桶(比最大的桶更频繁)。
  2. 无法使用具有预聚合计数的辅助索引,因为可以同时应用多个其他过滤器(例如国家/地区:美国,类别:红色等)

标题中的问题:有没有办法用范围过滤器为存储桶的 doc_count 选择 1000 个存储桶,以一种“即时”跳过存储桶的方式应用

假想聚合:

termAgregation("companies","company").size(10).minDocCount(100).maxDocCount(1000)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?