微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Apache Nuch 1.17中奇怪的robots.txt问题

如何解决Apache Nuch 1.17中奇怪的robots.txt问题

使用螺母1.17时,robots.txt出现了一个奇怪的问题。我正在使用硒协议。尝试了Firefox和Chrome。日志显示robots.txt文件无法解析。

2020-09-14 08:15:45,751 WARN  robots.SimpleRobotRulesParser - Problem processing robots.txt for https://website.com/some.html
2020-09-14 08:15:45,751 WARN  robots.SimpleRobotRulesParser -    UnkNown line in robots.txt file (size 156): ^@^@^@^@^@^@^C^K-N-�MLO�+�R�MM�L,H,*�K-*�u��O�I�r�,N���/��r.J,��MI�I��R02��
2020-09-14 08:15:45,752 WARN  robots.SimpleRobotRulesParser -    UnkNown line in robots.txt file (size 156): E�^KQ��_B�������
2020-09-14 08:15:45,753 WARN  robots.SimpleRobotRulesParser -    UnkNown line in robots.txt file (size 156): �j�Ss�J�3��MU���F7�^Q����<��T���^�FI��I/J,H-������5^B�[�p^E��^A^W^@^Z�`X�

我检查了robots.txt,一切正常。

User-agent: *
disallow: /index.PHP/
disallow: /*?
disallow: /report/
disallow: /var/
disallow: /path/

我不知道坚果下方发生了什么。但是似乎胡说八道是试图解析html页面,而不是通过该特定域的robots.txt。有人知道这个问题吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。