微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用 R 和 rvest 轮换代理和 IP 地址

如何解决如何使用 R 和 rvest 轮换代理和 IP 地址

我正在做一些抓取,但当我解析大约 4000 个 URL 时,该网站最终会检测到我的 IP 并每 20 次迭代就阻止我。

我写了一堆Sys.sleep(5)一个tryCatch,所以我不会很快被屏蔽

我使用 VPN,但我必须时不时地手动断开连接并重新连接以更改我的 IP。对于这样一个应该整夜运行的刮板来说,这不是一个合适的解决方案。

我认为轮换代理应该可以完成这项工作。

这是我当前的代码(至少是其中的一部分):

library(rvest)
library(dplyr)

scraped_data = data.frame()

for (i in urlsuffixes$suffix)
  {
  
  tryCatch({
    message("Let's scrape that,Buddy !")
    
    Sys.sleep(5)
 
    doctolib_url = paste0("https://www.website.com/test/",i)

    page = read_html(site_url)
    
    links = page %>%
      html_nodes(".SEO-directory-doctor-link") %>%
      html_attr("href")
    
    Sys.sleep(5)
    
    name = page %>%
      html_nodes(".SEO-directory-doctor-link") %>%
      html_text()
    
    Sys.sleep(5)
    
    job_title = page %>%
      html_nodes(".SEO-directory-doctor-speciality") %>%
      html_text()
    
    Sys.sleep(5)
    
    address = page %>%
      html_nodes(".SEO-directory-doctor-address") %>%
      html_text()
    
    Sys.sleep(5)
    
    scraped_data = rbind(scraped_data,data.frame(links,name,address,job_title,stringsAsFactors = FALSE))
    
  },error=function(e){cat("Houston,we have a problem !","\n",conditionMessage(e),"\n")})
  print(paste("Page : ",i))
}

解决方法

有趣的问题。我认为首先要注意的是,如 this Github issue 所述,rvestxml2 使用 httr 作为连接。因此,我将在此答案中引入 httr

使用带有 httr 的代理

以下代码块展示了如何使用 httr 通过代理查询 url 并提取 html 内容。

page <- httr::content(
    httr::GET(
        url,httr::use_proxy(ip,port,username,password)
    )
)

如果您使用 IP 身份验证或不需要用户名和密码,您可以简单地从调用中排除这些值。

简而言之,您可以将 page = read_html(site_url) 替换为上面的代码块。

轮换代理

使用代理的一个大问题是获得可靠的代理。为此,我只是假设您有可靠的来源。由于您没有另外说明,我将假设您的代理以以下合理格式存储,对象名称为 proxies

ip 端口
64.235.204.107 8080
167.71.190.253 80
185.156.172.122 3128

考虑到这种格式,您可以调整上面的脚本块来为每个 Web 请求轮换代理,如下所示:

library(dplyr)
library(httr)
library(rvest)

scraped_data = data.frame()

for (i in 1:length(urlsuffixes$suffix))
  {
  
  tryCatch({
    message("Let's scrape that,Buddy !")
    
    Sys.sleep(5)
 
    doctolib_url = paste0("https://www.website.com/test/",urlsuffixes$suffix[[i]])
   
   # The number of urls is longer than the proxy list -- which proxy to use
   # I know this isn't the greatest,but it works so whatever
   proxy_id <- ifelse(i %% nrow(proxies) == 0,nrow(proxies),i %% nrow(proxies))

    page <- httr::content(
        httr::GET(
            doctolib_url,httr::use_proxy(proxies$ip[[proxy_id]],proxies$port[[proxy_id]])
        )
    )
    
    links = page %>%
      html_nodes(".seo-directory-doctor-link") %>%
      html_attr("href")
    
    Sys.sleep(5)
    
    name = page %>%
      html_nodes(".seo-directory-doctor-link") %>%
      html_text()
    
    Sys.sleep(5)
    
    job_title = page %>%
      html_nodes(".seo-directory-doctor-speciality") %>%
      html_text()
    
    Sys.sleep(5)
    
    address = page %>%
      html_nodes(".seo-directory-doctor-address") %>%
      html_text()
    
    Sys.sleep(5)
    
    scraped_data = rbind(scraped_data,data.frame(links,name,address,job_title,stringsAsFactors = FALSE))
    
  },error=function(e){cat("Houston,we have a problem !","\n",conditionMessage(e),"\n")})
  print(paste("Page : ",i))
}

这可能还不够

您可能想要更进一步,向 httr 请求添加元素,例如用户代理等。但是,像 httr 这样的包的一个大问题是它无法呈现动态 html 内容,例如 JavaScript 呈现的 html,任何真正关心阻止刮刀的网站都会检测到这一点。为了克服这个问题,有一些工具,例如 Headless Chrome,旨在专门解决此类问题。这是您可能想要查看的软件包 headless Chrome in R 注意:仍在开发中。

免责声明

显然,我认为这段代码会起作用,但由于没有可重现的数据可供测试,因此可能不会。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?