在Storm Crawler中使用不同的crawlRequestId分别爬行完全相同的URL

时间：2022-08-09分类：编程问答

如何解决在Storm Crawler中使用不同的crawlRequestId分别爬行完全相同的URL

我将基于Storm Crawler项目开发一个工件。我想从Kafka主题中获取种子URL。 Kakfa中的每个消息都有两个重要的字段：我们可能有具有不同的crawlId的重复seedUrl。例如在Kafka中，也许我有以下两条消息：，我希望Storm Crawler尝试独立于其他种子处理每个seedUrl。我们正在使用Solr来跟踪每个网址的状态。为此要求需要更改默认拓扑的哪一部分（即Solrspout）？

小编推荐

苹果市值2025年有望达4万亿美元