如何解决如何使用 HTTP for Common Crawl News Dataset 获取 WARC 文件列表?
我可以通过以下方式获得 Common Crawl 的列表:
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2017-09/wet.paths.gz
如何使用 Common Crawl News Dataset 执行此操作?
我尝试了不同的选项,但总是出错:
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS-2017-09/warc.paths.gz
https://commoncrawl.s3.amazonaws.com/crawl-data/CC-NEWS/2017/09/warc.paths.gz
解决方法
由于每隔几个小时就会向新闻数据集中添加一个新的 WARC 文件,因此静态文件列表没有意义。相反,您可以使用 AWS CLI 获取文件列表 - 对于按年份或月份的任何子集,例如
aws --no-sign-request s3 ls --recursive s3://commoncrawl/crawl-data/CC-NEWS/2017/09/
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。