如何解决Nutch Fetch失败,协议状态:moveed12,lastModified = 0:https://moorecompletedental.com/
当我执行parsechecker网址https://moorecompletedental.com/时 parsechecker的输出是 2020-09-02 19:43:26,757信息配置。配置:在文件:/tmp/hadoop-unjar8666322013990061416/httpclient-auth.xml中找到资源httpclient-auth.xml 提取失败,协议状态为:moved(12),lastModified = 0:https://moorecompletedental.com/ 由于配置,未处理重定向。 每个配置可处理的最大重定向数:10 处理的重定向数:0
我找到了一些链接来更改属性http.redirect.max 10 但是我仍然遇到同样的问题。 任何人都可以帮助我进行哪些更改,以便我可以在这些网站上进行爬网。 我是新手。
解决方法
parsechecker工具提供了命令行标志-followRedirects
来跟随重定向:
$> bin/nutch parsechecker
Usage:
ParserChecker [OPTIONS] <url>
Fetch single URL and parse it
ParserChecker [OPTIONS] -stdin
Read URLs to be parsed from stdin
ParserChecker [OPTIONS] -listen <port> [-keepClientCnxOpen]
Listen on <port> for URLs to be parsed
Options:
-D<property>=<value> set/overwrite Nutch/Hadoop properties
(a generic Hadoop option to be passed
before other command-specific options)
-normalize normalize URLs
-followRedirects follow redirects when fetching URL
-checkRobotsTxt fail if the robots.txt disallows fetching
-dumpText also show the plain-text extracted by parsers
-forceAs <mimeType> force parsing as <mimeType>
-md <key>=<value> metadata added to CrawlDatum before parsing
然后,属性http.redirect.max
用于确定递归遵循的重定向的数量。如果-followRedirects
不存在,则会被忽略。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。