微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何根据主机将StormCrawler内容发送到多个Elasticsearch索引?

如何解决如何根据主机将StormCrawler内容发送到多个Elasticsearch索引?

我目前有一个成功的StormCrawler实例,该实例爬网了大约20个站点,并将内容索引到一个Elasticsearch索引。是否可以通过ES或通过StormCrawler将每个主机的内容发送到其自己的唯一内容索引?

解决方法

出于好奇:您为什么需要这样做?每个主机只有一个索引似乎很浪费。如果要为特定主机提供结果,则可以基于诸如主机之类的字段过滤结果。

要回答您的问题,由于IndexerBolt仅连接到一个索引,因此目前尚无直接方法。您可以为每个所需的索引声明一个IndexerBolt,然后根据主机元数据的值向风扇添加一个自定义螺栓,但这不是动态的,而且操作繁琐。不确定,可以使用pipelines in ES来做到这一点。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。