Heroku部署在某些站点上打破了开放uri

如何解决Heroku部署在某些站点上打破了开放uri

我正在尝试从网站(我的Rateyourmusic页面)中抓取数据,并且我已经建立了一个使用Nokogiri的Ruby on Rails API,这意味着我正在使用open-uri。但是,尽管它在localhost上运行良好,但是在部署它时会中断。来自我的控制器的相关代码如下:

class RymsController < ApplicationController
  def index
    myname = params[:rym_user]
    rym_data = URI::open('https://rateyourmusic.com/~mgintz').read
    # I've commented some stuff out here,which intends to actually do the scraping
    a = "3"
    rym = Rym.create(review:a)
    render json: rym
  end
end

现在我让它返回数字3,以便可以看到一切都在运行。如果我用https://google.com替换提到的站点,那么它将按预期返回3,但是当我输入此站点时,它会显示错误(503),因此我知道此问题是特定于网站的。

看起来我没有破坏robots.txt,并且服务器上的负载很小(它所做的只是打开页面一次并用Nokogiri获取HTML)。正如您所看到的,目前这就是它的全部功能

您知道我需要在这里做什么吗?任何帮助表示赞赏。

这是您想找找的仓库,相关文件是controllers文件夹中的ryms-controller:https://github.com/flyingpurplepeopleeater/website

编辑:我想说的是,我不确定要负责任地抓取网站的正确协议是什么,因此也应向您提供任何帮助。我认为,由于部署的版本甚至无法使用一次,因此我不可能被禁止使用。也许我必须为此指定一些东西,但是出于某种原因,它们仅需要从Heroku中指定它?但是负责任地这样做似乎是一个不错的工具:)

编辑2:我要求获得明确许可,因为他们的网站上说您应该这样做,但是我仍然对为什么该工具在本地而不是在Heroku上能正常工作感到困惑!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?