如何解决反转umlaut的python编码以规范化文本或规范化当前形式
Python会自动将德语变音符和标点符号读取为
Gefrier-和TiefkühlmÃbel
如何规范化此输出以删除标点符号?
解决方法
您可以通过以下方式“解决”编码问题:
the_string = 'Gefrier- und Tiefkühlmöbel'.encode('latin-1').decode('utf-8')
然后应用这样的解决方案:https://stackoverflow.com/a/518232/2452074
import unicodedata
def strip_accents(s):
return ''.join(c for c in unicodedata.normalize('NFD',s)
if unicodedata.category(c) != 'Mn')
strip_accents(the_string)
> 'Gefrier- und Tiefkuhlmobel'
但是首先,我将尝试理解为什么您的输入看起来不完整,Python本身不应该自动这样做。
一些有关unicode和编码的背景文档:https://docs.python.org/3/howto/unicode.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。