如何解决Python从特定字符串解码
有人给我这个字符串:“ AlBaţḩah”(可能是阿拉伯名称), 并要求我在Python中翻译它(以及其他类似字符串的列表)。
此website使用操作“ UTF8解码”将其转换为“ AlBaţḩah”。我正在尝试在Python中执行相同的操作,但这是我尝试过的结果。大多数示例都采用了一系列unicode字节。我尝试了“检测”,以准确了解他在给我什么。如果已经是UTF8,那么我不确定该网站会将其转换为什么。
import chardet
byte_string = b"\x61\x62\x63"
decoded_string = byte_string.decode("utf8")
print(decoded_string)
sourceText = "Al Baţḩah"
sourceTextBytes = bytes(sourceText,'utf-8')
print(chardet.detect(sourceTextBytes))
decoded_string2 = sourceTextBytes.decode("utf")
print("Result2=",decoded_string2)
以上输出:
abc
{'encoding': 'utf-8','confidence': 0.9690625,'language': ''}
Result2= Al Baţḩah
输出与输入相同。我已经尝试过ascic,utf8等...作为解码语句的参数。
第2部分-这是另一个奇怪的问题,以下解决方案不适用于这些解决方案(这些是同事购买的ISO文档中的细分名称)。
Gədəbəy
解决方法
看起来像是mojibake的经典情况-在这种情况下,当它应为UTF-8时使用latin1解释:
>>> "Al Baţḩah".encode('latin1')
b'Al Ba\xc5\xa3\xe1\xb8\xa9ah'
>>> "Al Baţḩah".encode('latin1').decode('UTF-8')
'Al Baţḩah'
要复制/粘贴到程序而不是命令行中的代码:
source_text = "Al Baţḩah"
print("source_text=",source_text)
encoded_source_text = source_text.encode('latin1')
decoded_text = encoded_source_text.decode('UTF-8')
print("decoded_text=",decoded_text)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。