微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Scrapy HTTP状态代码未处理或不允许

如何解决Scrapy HTTP状态代码未处理或不允许

我正在尝试从此https://www.matchesfashion.com/intl/mens/shop/shoes?page=1网址中抓取所有鞋子数据,以跟随至第7页上的下一个按钮。但是,当我尝试这样做时,我得到的HTTP状态代码未处理或不允许错误

Code Snippet

Error  Snippet

解决方法

在输出中,您将看到它重试了您的请求3次。所有这些请求都从服务器收到了状态码429的响应。该状态码表示服务器拒绝了您的请求,因为您在一定时间内发送了太多请求。

默认情况下,Scrapy配置为忽略这些响应,因为它们将不包含您要查找的数据。

要绕过此操作,请使用诸如scraper API或Crawlera之类的代理。 或者,增加scrap_downloads的scrapy直到不再被阻止为止。像这样:

class Website2Spider(scrapy.Spider):
    download_delay = 2 #The number you write here will be how many seconds scrapy waits before sending another request. 

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。