我有一个简单的网络爬虫来请求网站的站点地图中我需要缓存和索引的所有页面.经过多次请求后,网站开始提供空白页面.
除了链接到他们的站点地图之外,他们的robots.txt中没有任何内容,因此我假设我没有违反他们的“规则”.我有一个描述性标题,链接到我的意图,我抓取的唯一页面来自他们的站点地图.
http状态代码仍然可以,所以我只能想象它们会在短时间内阻止大量的http请求.什么被认为是请求之间的合理延迟?
我是否忽略了可能导致此问题的任何其他考虑因素?
解决方法
原文地址:https://www.jb51.cc/html/227533.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。