如何解决如何对mechanize读取的html文件进行编码,避免出现奇怪的丹麦字符?
我使用 mechanize 下载丹麦语网页。问题是它以某种方式使用了与仅使用 Ctrl + S 下载页面不同的字符编码,我真的需要后者。
import codecs
import charade
import mechanize
br = mechanize.browser()
br.set_handle_robots(False)
br.open("https://example.com")
br.select_form(nr=0)
result = br.submit().read()
print(type(result))
print(charade.detect(result)['encoding'])
f = open("example.html","wb")
f.write(result)
f.close()
这是它的结果:
<class 'bytes'>
ISO-8859-2
然后我在两种情况下都打开文件:
f = open('example.html','r')
text = f.read()
f.close()
两种情况下的文本类型:
<class 'str'>
在手动情况下,字符很好,例如:
å
æ
ø
但是在机械化的情况下,丹麦字符看起来像这样:
å
æ
ø
如何在机械化情况下标准化编码,使字符正常?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。