如何解决如何解释 wget 拒绝日志中的“BLACKLIST”
我正在尝试使用 wget 备份(镜像)网站。被拒绝的日志包含大量以“reason”“BLACKLIST”开头且仅包含其他字段的条目: U_URL、U_SCHEME、U_HOST、U_PORT、U_PATH、P_URL、P_SCHEME、P_HOST 和 P_PORT 但缺少字段: U_ParaMS、U_QUERY、U_FRAGMENT、P_PATH、P_ParaMS、P_QUERY 和 P_FRAGMENT
URL 是 Web 服务器呈现的 HTML 页面的 URL,没有扩展名“.html”。 基于 wget 选项:
--adjust-extension
我希望下载这些页面并附加扩展名“.html”。但是,这些页面均未下载。
这是我完整的 wget 命令:
wget \
--mirror \
--page-requisites \
--adjust-extension \
--span-hosts \
--convert-links \
--backup-converted \
--restrict-file-names=windows \
--domains=imcz.club \
--no-parent \
--no-proxy \
--append-output=wget.log \
--rejected-log=wget-rejected.log \
--reject=SwitchToAdmin,Search,SignOut \
--show-progress \
--random-wait \
--wait=2 \
https://imcz.club/
这里是一个来自应已下载的可公开访问的页面的拒绝日志条目示例:
BLACKLIST https%3A//imcz.club/Privacy-Policy SCHEME_HTTPS imcz.club 443 Privacy-Policy https%3A//imcz.club/ SCHEME_HTTPS imcz.club 443
我还没有找到任何文档来解释 wget 的拒绝日志中“BLACKLIST”的含义。
什么意思?如何让 wget 下载丢失的页面?
附言我误认为该页面没有被下载。显然,我正在查看的文件列表尚未更新。我还是想知道拒绝日志中的“BLACKLIST”条目是什么意思。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。