微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

正则表达式python与unicode(日语)字符问题

我想删除下面的一部分字符串(以粗体显示),它存储在字符串oldString中

[DMSM-8433]加护亜依Kago Ai – 加护亜依vs.星期五

我在python中使用以下正则表达式

p=re.compile(ur"( [\W]+) (?=[A-Za-z ]+–)",re.UNICODE)
newString=p.sub("",oldString)

当我输出newString时,没有删除任何内容

您可以使用以下代码段来解决此问题:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import re
str = u'[DMSM-8433] 加護亜依 Kago Ai – 加護亜依 vs. FRIDAY'
regex = u'[\u3000-\u303f\u3040-\u309f\u30a0-\u30ff\uff00-\uff9f\u4e00-\u9faf\u3400-\u4dbf]+ (?=[A-Za-z ]+–)'
p = re.compile(regex,re.U)
match = p.sub("",str)
print match.encode("UTF-8")

IDEONE demo

除了# – * – 编码:utf-8 – * – 声明,我添加@nhahtdh’s character class to detect Japanese symbols.

请注意,匹配需要“手动”编码为UTF-8字符串,因为Python 2需要“提醒”我们一直在使用Unicode.

原文地址:https://www.jb51.cc/regex/357254.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐