如何解决Python URLLIB3 - geturl() 不返回重定向 url
我想下载一个 HTML 页面。响应包括重定向。重定向功能不起作用。
我搜索了几个小时并尝试了很多。可惜没有成功。在我上次尝试之后:
import urllib3
url = 'http://www.statistik.gv.at/web_de/intern/Redirect/index.html?dDocName=021985'
http = urllib3.PoolManager()
# resp = http.request("GET",url)
# resp = http.request("GET",url,redirect=True)
resp = http.request("GET",retries=urllib3.Retry(3,redirect=2))
print(resp.status)
print(resp.data)
输出:
200
b'<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">\n<html><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"/><title>RedirectPageTemplate</title></head><body><input id="redirect" type="hidden" value="/web_de/statistiken/menschen_und_gesellschaft/gesundheit/todesursachen/021985.html"/><input id="redirect" type="hidden" value="/web_de/statistiken/menschen_und_gesellschaft/gesundheit/todesursachen/021985.html"/><p>If the page was not loaded please click <a href="/web_de/statistiken/menschen_und_gesellschaft/gesundheit/todesursachen/021985.html">here</a>.</p><script>window.location.href=document.getElementById(\'redirect\').value</script></body></html>'
在 resp.data 中是重定向:
<input id="redirect" type="hidden"
value="/web_de/statistiken/menschen_und_gesellschaft/gesundheit/todesursachen/021985.html"/>
<input id="redirect" type="hidden" ...
当我使用
new_url = resp.geturl()
print(new_url)
new_url的结果和原来的url一样:
'http://www.statistik.gv.at/web_de/intern/Redirect/index.html?dDocName=021985'
等待的网址应该是:
'http://www.statistik.gv.at/web_de/statistiken/menschen_und_gesellschaft/gesundheit/todesursachen/021985.html'
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。