微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何读取R中解析的html的第n行

readLines函数以一行的形式显示页面的所有内容.
con = url("target_url_here")
htmlcode = readLines(con)

readLines函数将源页面的所有行连接在一行.所以没有办法可以导航到原始html源代码页的第15行.

一个方法是尝试使用XML包或者httr包解析它.

library("httr")
html <- GET("target_url_here")
content2 = content(html,as="text")
parsedHtml = htmlParse(content2,asText=TRUE)

通过打印parsedHtml,它保留html格式并显示所有的内容,因为它可以在源页面中看到.
现在假设我想提取标题,所以这个功能

xpathSApply(parsedHtml,"//title",xmlValue)

会给标题.

但是我的问题是,如何导航到任何一行说第15行的HTML?换句话说,我如何将html视为一个字符串的向量,其中向量的每个元素是html页面/解析的html对象中的一个单独的行.

解决方法

更好地看看 the docs for readLines(),它实际上返回:

A character vector of length the number of lines read.

所以在你的情况下:

con = url("http://example.com/file_to_parse.html")
htmlCode = readLines(con)

您可以轻松地执行htmlCode [15]访问原始html源页面的第15行.

原文地址:https://www.jb51.cc/html/225238.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐