readLines函数以一行的形式显示源页面的所有内容.
con = url("target_url_here") htmlcode = readLines(con)
readLines函数将源页面的所有行连接在一行.所以没有办法可以导航到原始html源代码页的第15行.
library("httr") html <- GET("target_url_here") content2 = content(html,as="text") parsedHtml = htmlParse(content2,asText=TRUE)
通过打印parsedHtml,它保留html格式并显示所有的内容,因为它可以在源页面中看到.
现在假设我想提取标题,所以这个功能
xpathSApply(parsedHtml,"//title",xmlValue)
会给标题.
但是我的问题是,如何导航到任何一行说第15行的HTML?换句话说,我如何将html视为一个字符串的向量,其中向量的每个元素是html页面/解析的html对象中的一个单独的行.
解决方法
更好地看看
the docs for
readLines()
,它实际上返回:
所以在你的情况下:
con = url("http://example.com/file_to_parse.html") htmlCode = readLines(con)
您可以轻松地执行htmlCode [15]访问原始html源页面的第15行.
原文地址:https://www.jb51.cc/html/225238.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。