如何解决Scrapy HTTP状态代码未处理或不允许
我正在尝试从此https://www.matchesfashion.com/intl/mens/shop/shoes?page=1网址中抓取所有鞋子数据,以跟随至第7页上的下一个按钮。但是,当我尝试这样做时,我得到的HTTP状态代码未处理或不允许错误
解决方法
在输出中,您将看到它重试了您的请求3次。所有这些请求都从服务器收到了状态码429的响应。该状态码表示服务器拒绝了您的请求,因为您在一定时间内发送了太多请求。
默认情况下,Scrapy配置为忽略这些响应,因为它们将不包含您要查找的数据。
要绕过此操作,请使用诸如scraper API或Crawlera之类的代理。 或者,增加scrap_downloads的scrapy直到不再被阻止为止。像这样:
class Website2Spider(scrapy.Spider):
download_delay = 2 #The number you write here will be how many seconds scrapy waits before sending another request.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。