是否可以从网页下载所有zip文件,而无需一次指定一个链接.
我想从http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html下载所有月度帐户zip文件.
我使用的是Windows 8.1,R3.1.1.我在PC上没有wget,所以不能使用递归调用.
替代方案:
作为一种解决方法,我尝试下载网页文本本身.然后我想提取每个zip文件的名称,然后我可以在循环中传递给download.file.但是,我正在努力提取名称.
pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html" temp <- tempfile() download.file(pth,temp) dat <- readLines(temp) unlink(temp) g <- dat[grepl("accounts_monthly",tolower(dat))]
g包含带有文件名的字符串,以及其他字符.
g [1] " <li><a href=\"Accounts_Monthly_Data-September2013.zip\">Accounts_Monthly_Data-September2013.zip (775Mb)</a></li>" [2] " <li><a href=\"Accounts_Monthly_Data-October2013.zip\">Accounts_Monthly_Data-October2013.zip (622Mb)</a></li>"
我想提取文件的名称Accounts_Monthly_Data-September2013.zip等等,但我的正则表达式非常糟糕(请亲自看看)
gsub(".*\\>(\\w+\\.zip)\\s+","\\1",g)
数据
g <- c(" <li><a href=\"Accounts_Monthly_Data-September2013.zip\">Accounts_Monthly_Data-September2013.zip (775Mb)</a></li>"," <li><a href=\"Accounts_Monthly_Data-October2013.zip\">Accounts_Monthly_Data-October2013.zip (622Mb)</a></li>" )
解决方法
使用XML包:
pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html" library(XML) doc <- htmlParse(pth) myfiles <- doc["//a[contains(text(),'Accounts_Monthly_Data')]",fun = xmlAttrs] fileURLS <- file.path("http://download.companieshouse.gov.uk",myfiles) mapply(download.file,url = fileURLS,destfile = myfiles)
“// a [contains(text(),’Accounts_Monthly_Data’)]”是一个XPATH表达式.它指示XML包选择所有锚点(a)包含文本“Accounts_Monthly_Data”的节点.结果是节点列表.然后fun = xmlAttrs参数告诉XML包将这些节点传递给xmlAttrs函数.此函数从xml节点中剥离属性.锚只有一个属性,在这种情况下是我们正在寻找的href.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。