微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用 R 刮板绕过重新验证

如何解决如何使用 R 刮板绕过重新验证

我正在尝试获取有关特定电话号码的信息。所以我正在抓取一个在线反向目录。 URL 实际上包含您在“tel=”之后查找的电话号码。 然后我创建一个序列来定义所有可能的电话号码(基本上以 0800 开头,后跟 6 位数字),并且……有数百万种可能性。 问题是反向目录只允许连续搜索 15 次,直到我进行 reCAPTCHA 测试。它返回 Error in open.connection(x,"rb") : HTTP error 401. 那么,我怎样才能通过 reCAPTCHA 抓取? 这是 R 脚本:

library(rvest)
library(dplyr)

#link_example = "https://www.infosva.org/?tel=0800220800&date=14-01-2021"

phone_numbers = data.frame()

for (page_result in seq(from = 800000000,to = 805999999,by = 1)) {
  link = paste0("https://www.infosva.org/?tel=0",page_result,"&date=09-01-2021")
  page = read_html(link)
  num_table = page %>% html_nodes("table.table.table-bordered.table-striped.table-hover") %>%
    html_table() %>% .[[1]]
  exist = page %>% html_nodes(".table-hover+ .txtSignal") %>% html_text()

  phone_numbers = rbind(phone_numbers,data.frame(num_table,exist,stringsAsFactors = FALSE))
  
  print(paste("Page :",page_result))
}

phone_numbers

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。