屏幕抓取：解决“ HTTP错误403：robots.txt不允许的请求”

如何解决屏幕抓取：解决“ HTTP错误403：robots.txt不允许的请求”

如果您想在Barnes＆Noble上遇到法律上的麻烦，可以尝试撒谎您的用户代理（例如，通过使自己相信自己是人而不是机器人）。为什么不与他们的业务开发部门联系并说服他们明确授权您呢？毫无疑问，他们只是试图避免被某些类型的机器人（例如价格比较引擎）所破坏，并且，如果您可以说服他们您不是一个人，签订合同等，他们可能会愿意一个例外。

一种“技术性”的解决方法只是破坏了robots.txt中编码的策略，这是一种我极不推荐的高法律风险方法。顺便说一句，怎么没有自己的robots.txt读？

解决方法

有没有办法解决以下问题？

httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt

这是联系网站所有者（barnesandnoble.com）的唯一方法。我正在建立一个网站，该网站将带给他们更多的销售，不确定他们为什么会拒绝一定深度的访问。

我在Python2.6上使用机械化和BeautifulSoup。

希望解决方法