如何解决使用Kafka主题向Storm Crawler输入种子网址
我们想将来自Kafka主题的种子URL馈送到基于StormCrawler的项目。 是否需要更换“风暴爬虫”?
解决方法
显然,您需要稍微更改拓扑并添加一个KafkaSpout并将其连接到StatusUpdaterBolt;像we do in the ES archetype with the FileSpout。 KafkaSpout必须为 status 流生成与FileSpout相同类型的输出,即URL,元数据和状态(具有发现值)。如果那很困难,您可以在Kafka Spout和statusupdater螺栓之间插入一个螺栓,以将字符串从字符串转换为该输出
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。