微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

nutch fetch 因 java.lang.NumberFormatException 而失败

如何解决nutch fetch 因 java.lang.NumberFormatException 而失败

我在 Red Hat Enterprise Linux 8.3 版 (Ootpa) 上运行 Nutch 1.18,带有 Java openjdk 版本“1.8.0_275”

我正在遵循以下说明:https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial#NutchTutorial-Step-by-Step:Concepts

当我到达 bin/nutch fetch $s1 的步骤时,每次提取都失败了。请参阅下面的 hadoop 日志中的示例错误。它们都以 java.lang.NumberFormatException 失败。我可以使用 curl 来检查网址是否可以访问。

任何建议将不胜感激。

    at java.lang.NumberFormatException.forInputString(NumberFormatException.java:65)
    at java.lang.Integer.parseInt(Integer.java:583)
    at java.lang.Integer.parseInt(Integer.java:615)
    at org.apache.hadoop.conf.Configuration.getInt(Configuration.java:1486)
    at org.apache.nutch.protocol.http.api.HttpBase.setConf(HttpBase.java:212)
    at org.apache.nutch.protocol.http.Http.setConf(Http.java:52)
    at org.apache.nutch.plugin.Extension.getExtensionInstance(Extension.java:169)
    at org.apache.nutch.protocol.ProtocolFactory.getProtocolInstanceByExtension(ProtocolFactory.java:177)
    at org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:155)
    at org.apache.nutch.fetcher.FetcherThread.run(FetcherThread.java:308)```

解决方法

堆栈(关键字:协议、http、配置、parseInt)已经表明配置属性的某些整数值无法读取。查看源代码(HttpBase.java,第 212 行)时,很明显它与配置属性“http.timeout”有关:

<property>
  <name>http.timeout</name>
  <value>10000</value>
  <description>The default network timeout,in milliseconds.</description>
</property>

请验证它是否配置正确 - 整数值和合理的时间跨度。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。