微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

屏幕抓取:解决“ HTTP错误403:robots.txt不允许的请求”

如何解决屏幕抓取:解决“ HTTP错误403:robots.txt不允许的请求”

如果您想在Barnes&Noble上遇到法律上的麻烦,可以尝试撒谎您的用户代理(例如,通过使自己相信自己是人而不是机器人)。为什么不与他们的业务开发部门联系并说服他们明确授权您呢?毫无疑问,他们只是试图避免被某些类型的机器人(例如价格比较引擎)所破坏,并且,如果您可以说服他们您不是一个人,签订合同等,他们可能会愿意一个例外。

一种“技术性”的解决方法只是破坏了robots.txt中编码的策略,这是一种我极不推荐的高法律风险方法。顺便说一句,怎么 没有 自己的robots.txt读?

解决方法

有没有办法解决以下问题?

httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt

这是联系网站所有者(barnesandnoble.com)的唯一方法。我正在建立一个网站,该网站将带给他们更多的销售,不确定他们为什么会拒绝一定深度的访问。

我在Python2.6上使用机械化和BeautifulSoup。

希望解决方法

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。