如何解决使用 --mirror 和 --input-file
我有大量网站需要保存在 warc
中。
$ wget --no-verbose --delete-after --no-directories \
--page-requisites --mirror \
--warc-cdx --warc-file=example https://example.com
对于每个网站。
例如:
https://example.com/post1
https://example.com/post2
https://example.com/post3
必须保存,但不确定由 https://example.com
开始爬行的蜘蛛网是否可以找到此链接。
https://example.com
https://example.com/post1
https://example.com/post2
https://example.com/post3
然后做:
$ wget --no-verbose --delete-after --no-directories \
--page-requisites --mirror \
--warc-cdx --warc-file=example --input-file=urls.txt
但是 example.warc.gz
更大,因为每个页面都被访问了好几次。我认为 wget
从每个链接开始一个新镜像,所以这就像保存网站 4 次。
如何使用 warc
制作镜像 --input-file
并避免重复?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。