如何解决如何限制上传到 ElasticSearch 的数据数量
如何限制上传到 Elasticsearch 的数据数量?我的旧笔记本电脑无法处理像我正在使用的那样庞大的数据集。
from elasticsearch import helpers,Elasticsearch
import csv
import itertools
with open('my_data.csv',encoding="utf8") as f:
reader = csv.DictReader(f)
for row in itertools.islice(reader,1000): #limitation of data
helpers.bulk(es,reader,index='movie-plots',doc_type=None)
但这显然行不通;当我检查“POST movie-plots/_count”时,它返回整个数据集的初始大小。
我对 Elasticsearch 完全陌生,如果这是一个新手问题,我很抱歉。我正在使用 Python 客户端(在 Jupyter notebook 中)以便使用 Elasticsearch 和 Kibana。
解决方法
您在 islice
上调用 reader
......但无论如何您都将所有 reader
传递给 helpers.bulk
。
不在我可以测试的地方;但尝试删除 for
循环并直接将 islice
传递给 helpers.bulk
:
with open('my_data.csv',encoding="utf8") as f:
reader = csv.DictReader(f)
helpers.bulk(es,itertools.islice(reader,1000),index='movie-plots',doc_type=None)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。