微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Nutch/Elastic 搜索术语定义

如何解决Nutch/Elastic 搜索术语定义

我使用 nutch 和 Elastisearch 抓取/解析 99 个网站/链接,以便在 Elasicsearch 中为它们编制索引,以便我可以使用搜索引擎。它确实抓取了所有 99 个网站/链接,但我得到的最终消息如下。我想了解什么是重定向添加/更新是什么意思?如果有可能找出哪些已经消失并重定向

[A-Za-z0-9_]

解决方法

Nutch 不知道某个页面是否已经在索引中。为了保持索引和抓取的内容同步,

  • 成功获取的页面将发送到索引并计为添加或更新
  • (使用索引器选项 -deleteGone)从索引中删除 404 和其他失败的提取并计为“消失”
  • 与重定向相同,但单独计为“重定向”

如果有可能找出哪些已经消失并重定向?

您可以使用 Nutch 工具

  • readdb 转储 CrawlDb
  • readseg 转储已编入索引的段

然后搜索 404、获取失败、重定向等。调用 bin/nutch readdb 响应。 bin/nutch readseg 将显示所有可用的命令行选项。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。