如何解决ElasticSearch 的 Nutch 索引
我正在努力将 Nutch 抓取的数据索引到 ElasticSearch 中。我使用 2 个 HDFS 节点在部署模式下运行 Nutch,并且运行良好。
但是,添加另一个 HDFS 节点(总共 3 个 HDFS 节点)后,Nutch Indexing Plugin 无法正常工作。
-
Nutch Segment1 应该导致 45 个文档被索引到 ElasticSearch,索引良好。
-
Nutch Segment2 应该会索引大约 1600 个文档 在 ElasticSearch 中,这也很好。
-
但是,Nutch Segment3,应该会导致大约 9000 在 elasticsearch 中索引的文档没有被索引。
所有 nutch 段都能够用 2 个 HDFS 编制索引。
我不知道造成这种情况的原因是什么。 nutch 索引命令告诉我 map/reduce 工作正常并且文档被索引。
(我认为其中一个可能的原因是 ElasticSearch 的熔断器。触发了 ES 熔断器,然后索引请求被切断。但如何确保已触发熔断器?没有相关日志。)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。