微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 RSelenium 进行抓取不包含应该存在的所有信息?

如何解决使用 RSelenium 进行抓取不包含应该存在的所有信息?

我想抓取以下页面https://www.ochsnersport.ch/de/shop/neutral-ausruestung-00015642-c.html?page=2

由于我想要的信息是动态的(我猜是 java),我使用 RSelenium。

不幸的是,我遇到了一个问题,在输出中无法找到来自网站的所有信息。我试过这个:

rD<-rsDriver(browser = 'firefox',port = 564L)
remDr<-rD$client

remDr$navigate('https://www.ochsnersport.ch/de/shop/neutral-ausruestung-00015642-c.html?page=2')
html_sportarten<-read_html(remDr$getPageSource()[[1]])

test<-html_sportarten %>%
  html_nodes('section a div div div a')%>%
  html_attr('href')

输出如下所示: [1] "/de/shop/powerzone-yoga-set-beige-0000200191551800000001-p.html"
[2] "/de/shop/46-nord-oxford-20-l-rucksack-gruen-0000200169931100000007-p.html"
[3] "/de/shop/46-nord-kinder-skihelm-brille-gruen-00002001883598-p.html"
[4] "/de/shop/46-nord-chelsea-14-l-rucksack-hellblau-0000200169930600000002-p.html"
[5] "/de/shop/beach-mountain-matrix-herren-sNowboard-2021-schwarz-weiss-00002001881722-p.html" [6] "/de/shop/kettler-tour-600-ergometer-schwarz-0-0000200189576900000001-p.html"
[7] "/de/shop/kettler-optima-600-crosstrainer-schwarz-0-0000200189577600000001-p.html"
[8] "/de/shop/46-nord-maedchen-skihelm-brille-pink-00002001883596-p.html"
[9] "/de/shop/rossignol-nova-6-damen-ski-set-1920-schwarz-00002001764332-p.html"
[10] "/de/shop/atomic-vantage-130-150-cm-jungen-ski-set-1920-blau-00002001773874-p.html"
[11] "/de/shop/salomon-smax-10-ski-set-2021-schwarz-00002001883611-p.html"
[12] "/de/shop/voelkl-racetiger-sc-ski-2021-gelb-00002001939924-p.html"

但是使用这个节点,实际上应该可以找到48个带有href属性的url? 有人知道这里可能有什么问题吗?

我实际上非常确定,此时并未提取我想要的所有信息:

html_sportarten<-read_html(remDr$getPageSource()[[1]])

如果我只这样做:

html_sportarten<-remDr$getPageSource()[[1]]

相关资料不存在

最好的问候,非常感谢您的帮助! 大卫

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。