微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用 RVest 获取表格中的链接 HTML 文本

如何解决使用 RVest 获取表格中的链接 HTML 文本

我正在尝试获取页面中列出的每个游戏的游戏 ID。

https://www.chess.com/member/bogginssloggins

这是我现在正在做的事情: 首先,我使用 RSelenium 下载 HTML 并将其另存为 htmlfile.txt(除非您使用 Selenium,否则表格不会呈现) 然后,我使用 RVest 来解析 HTML。

这是我的代码,跳过了 RSelenium 部分

library(rvest)
html <- read_html("htmlfile.txt")
GaMetable <- html %>% html_table() %>% .[[1]]

遗憾的是,GaMetable 不包含游戏 ID,仅包含表格中实际可见的数据。示例 GameID 类似于以下链接

https://www.chess.com/analysis/game/live/9296762565?username=bogginssloggins

这些游戏在html中显示的非常多,但我不知道如何系统地抓取它们并将它们链接到表格的相应行。我的理想输出是网页上表格中的数据(例如游戏中的玩家、谁赢了等,但还包括游戏 ID 列。我相信要查找的重要内容之一是“存档游戏” -link”在html中。html中有20个链接,表中有20行,所以看起来它应该匹配。但是,当我执行下面的代码

"htmlfile.txt" %>% read_html() %>%
  html_nodes("[class='archived-games-link']") %>% 
  html_attr("href")

我只返回了 18 个结果,即使当我在 html 文档中按 ctrl+f 选择“archived-games-link”时,返回了 20 个结果。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。