微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

抓取谷歌趋势数据时被阻止的问题

如何解决抓取谷歌趋势数据时被阻止的问题

一段时间以来,我们一直在使用 https://github.com/PMassicotte/gtrendsR 按关键字提取 Google 趋势数据。

我们通常的方法是启动几个不同的盒子,发出一些请求,杀死这些盒子,然后启动其他盒子。我们每周做一次。
我们这样做是为了遵守谷歌的配额/限制。

我们这样做了大约 6 个月以上,但本周它已停止工作。我们使用的任何框 - 即使使用不同的 IP - 都会返回“HTTP 429 请求过多”。

我们所有的盒子都在我们的 AWS 账户中运行。如果来自同一个“地方”,谷歌(或任何人)是否能够阻止不同的 IP?这就是我认为正在发生的事情,但我不完全明白。

我正在努力学习/了解互联网的这一方面是如何运作的,如果是这样,那也没关系。这意味着我们已经达到了将所有抓取框保存在同一个 AWS 云中的限制。

我们在使用 gtrendsr 包时遇到的错误是:

Error in get_widget(comparison_item,category,gprop,hl,cookie_url,:
  widget$status_code == 200 is not TRUE

围绕这个问题有很多讨论,在过去 4 年多的时间里,人们做了不同的事情来处理它。大多数情况下,通常是:更改 IP。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。