技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

有没有办法选择 n 个存储桶，并使用存储桶的 doc_count 的范围过滤器以一种“即时”跳过存储桶的方式应用

时间：2022-04-22分类：编程问答

如何解决有没有办法选择 n 个存储桶，并使用存储桶的 doc_count 的范围过滤器以一种“即时”跳过存储桶的方式应用

事实

我们有大约 1000 万家公司发布的大约 8500 万份文件（索引大小为 93GB）
一家公司创建一个存储桶，因此大约有 1000 万个存储桶。

什么效果好

当对公司字段使用 termAggregation 进行聚合时，结果将毫无问题地返回，首先列出符合用户输入的特定条件的大多数文档的公司。前 6 个 1000 个桶的 doc_counts 示例（设置了 size=1000）

company_a：45000
company_b：40000
company_c：38000
company_d：35000
company_e:32000
company_f：31000

什么不起作用

仅选择具有某些最大和最小大小的存储桶（例如，最小：31000，最大：32000）。这无法在 termAggregation 级别实现，因为此选项不可用。

此处 termAggregation 的唯一选项是“min_doc_count”，但没有“max_doc_count”。

更新：我已经使用此功能 (WIP) 在 ElasticSearch 的 github 上创建了 PR

不是解决方案

这里不能使用Bucket select聚合，因为总bucket大小太大（超过1000万家公司-应该考虑所有bucket）。想象一下，我们需要选择 100-1000 范围内的桶（比最大的桶更频繁）。
无法使用具有预聚合计数的辅助索引，因为可以同时应用多个其他过滤器（例如国家/地区：美国，类别：红色等）

标题中的问题：有没有办法用范围过滤器为存储桶的 doc_count 选择 1000 个存储桶，以一种“即时”跳过存储桶的方式应用

假想聚合：

termAgregation("companies","company").size(10).minDocCount(100).maxDocCount(1000)

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

上一篇：子进程不执行 exiftool 命令下一篇：AppCheck 如何使用 AppAttest？

相关推荐

Selenium Web驱动程序和Java元素在(x，y)点处不可单击其他元素将获得点击?

Selenium Web驱动程序和Java。元素在(x，y)点处不可单击。其他元素将获得点击?

Python-如何使用点“” 访问字典成员？

Python-如何使用点“。” 访问字典成员？

Java 字符串是不可变的到底是什么意思？

Java 字符串是不可变的。到底是什么意思？

Java中的“ final”关键字如何工作？我仍然可以修改对象

Java中的“ final”关键字如何工作？（我仍然可以修改对象。）

“loop:”在Java代码中这是什么，为什么要编译？

“loop:”在Java代码中。这是什么，为什么要编译？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbcDriver发生异常为什么？

java.lang.ClassNotFoundException：sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么？

这是用Java进行XML解析的最佳库

这是用Java进行XML解析的最佳库。

Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构为什么？

Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么？

如何在Java中聆听按键时移动图像

如何在Java中聆听按键时移动图像。

Java“Program to an interface”这是什么意思？

Java“Program to an interface”。这是什么意思？

小编推荐

苹果市值2025年有望达4万亿美元

最新文章