微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何在python中的字符串中忽略以'\ xa0'错误开头的非UTF-8代码

如何解决如何在python中的字符串中忽略以'\ xa0'错误开头的非UTF-8代码

我在 python 中有 Dict 列表,其中几乎所有我的 Dict 对象都至少有一个包含非 UTF-8 字符的字符串值的键。我想保持它们原样,然后将它们插入到我的数据库中,稍后使用 API 将其取回。

这里是我的 Dicts 列表的样子

items=[
            {
                
                "name": "World Bank (USA)","shortName": "WB","description": "<p><strong>WB - World Bank</strong> - is an international financial institution that provides loans to developing countries for capital programs. The World Bank's official goal is the reduction of poverty.</p><p> </p><p> </p>","legalResidence": "USA",},.....]

就像在描述键中一样,它的值在字符串中有 Html 标签,它为我引发了这个错误

SyntaxError: Non-UTF-8 code starting with '\xa0' 

如何忽略此错误并让我的字符串保持原样?

这个问题的答案很少,在所有这些问题中,他们删除或替换了我不想去的这些字符。 enter link description here

解决方法

这里的问题是你告诉 Python 你的源代码是 UTF-8(这是默认的),而实际上它不是 UTF-8。 0xA0 是默认 Windows-1252 字符集中的“不间断空格”。如果这就是您获得这些字符串的地方,那么您可以尝试将此注释放在文件顶部:

# -*- coding: Windows-1252 -*-

看看这是否能让事情过去。处理此问题的正确方法是将这些不间断空格转换为常规空格,然后再将它们放入您的源代码中。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。