微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何限制上传到 ElasticSearch 的数据数量

如何解决如何限制上传到 ElasticSearch 的数据数量

如何限制上传到 Elasticsearch 的数据数量?我的旧笔记本电脑无法处理像我正在使用的那样庞大的数据集。

我使用以下代码来“限制”要上传的数据

from elasticsearch import helpers,Elasticsearch
import csv
import itertools

with open('my_data.csv',encoding="utf8") as f:
    reader = csv.DictReader(f)
    for row in itertools.islice(reader,1000): #limitation of data
        helpers.bulk(es,reader,index='movie-plots',doc_type=None)

但这显然行不通;当我检查“POST movie-plots/_count”时,它返回整个数据集的初始大小。

我对 Elasticsearch 完全陌生,如果这是一个新手问题,我很抱歉。我正在使用 Python 客户端(在 Jupyter notebook 中)以便使用 Elasticsearch 和 Kibana。

解决方法

您在 islice 上调用 reader ......但无论如何您都将所有 reader 传递给 helpers.bulk

不在我可以测试的地方;但尝试删除 for 循环并直接将 islice 传递给 helpers.bulk

with open('my_data.csv',encoding="utf8") as f:
    reader = csv.DictReader(f)
    helpers.bulk(es,itertools.islice(reader,1000),index='movie-plots',doc_type=None)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。