使用 Buckets 减少查询中的文档

如何解决使用 Buckets 减少查询中的文档

我在 ES 查询中使用 Buckets 来减少返回的文档。 这些文档有一个时间戳和一个值,我查询一个时间范围。 文档每 1-5 秒插入一次,每个时间戳都是唯一的。

由于随着时间的推移可能有数十亿个文档,我想通过创建给定时间段内的平均值来减少数据集 = timeIntervalInSeconds

new SearchRequest<DataPoint>(Indices.Parse(ElasticsearchConstants.GetIndexNameFromBatchId(batchId)))
                       {
                           Size = 0,// We just need the aggregation data. Returned documents of the top level query are not required.
                           Query = new BoolQuery
                                       {
                                           Filter = new List<QueryContainer>
                                                        {
                                                            new DaterangeQuery
                                                                {
                                                                    Field = new Field("Timestamp"),GreaterThanorEqualTo = startDateTime.ToString("O",CultureInfo.InvariantCulture),LessthanorEqualTo = endDateTime.ToString("O",CultureInfo.InvariantCulture)
                                                                }
                                                        }
                                       },Aggregations = new DateHistogramAggregation(ElasticsearchConstants.DataPointsHistogramAggregationKeyString)
                                              {
                                                  Field = "Timestamp",FixedInterval = new Union<DateInterval,Time>(new Time(timeIntervalInSeconds,TimeUnit.Second)),Offset = ((int)Math.Ceiling(startDateTime.Subtract(new DateTime(1970,1,1)).TotalSeconds)).ToString(),Order = HistogramOrder.KeyAscending,Aggregations = new ExtendedStatsAggregation("datapoints_date_histogram_stats",new Field("value")),MinimumDocumentCount = 1 // Just returns buckets which contains documents.
                                              }
                       };

然后处理来自此搜索的响应:

    var searchResponse = await elasticclient.SearchAsync<DataPoint>(searchRequest).ConfigureAwait(false);   

var dateHistogram = searchResponse.Aggregations.DateHistogram(ElasticsearchConstants.DataPointsHistogramAggregationKeyString);

            return (from item in dateHistogram.Buckets
                    let extendedStatsAggregate = item.ExtendedStats("datapoints_date_histogram_stats")
                    where extendedStatsAggregate.Count > 0

                    let dataPointValue = extendedStatsAggregate.Average.Value
                    select new DataPoint(
                        item.Date,batchId,parameterId,dataPointValue,extendedStatsAggregate.Min ?? dataPointValue,extendedStatsAggregate.Max ?? dataPointValue,extendedStatsAggregate.StdDeviation ?? 0.0,extendedStatsAggregate.Count)).Cast<IDataPoint>()
                .ToList();

我选择的 timeIntervalInSeconds 越高,创建的存储桶越少,返回的文档就越少。

只有一件坏事: 返回的最后一个文档时间戳总是

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?