如何解决正则表达式查找一个或多个字符,包括中间有句号、撇号或连字符的字符如果最后一个符号只出现一次,则没有最后一个符号
re.findall(r'[A-Za-z]+(?=\'|\.|\-[A-Za-z]+)?',txt)
re.findall(r'[A-Za-z\.\-]+(?:\'[A-Za-z]+)?',txt)
输入
txt = "which would find I'm U.S. co-op,include ending. without the .,but not ' - . rd- "
expected_output
['which','would','find',"I'm","U.S.",'co-op','include','ending','without','the','but','not','rd']
我尝试了上述方法和变体,但无法正常工作。怎么做?
解决方法
您可以使用此正则表达式使用 findall
进行匹配:
\w+(?:['.-]\w+\.?)?
正则表达式详情:
-
\w+
:匹配 1 个以上的单词字符 -
(?:['.-]\w+\.?)?
:可选的非捕获组,以'
或.
或-
开头,后跟 1 个以上的单词字符和可选的尾随点。
代码:
import re
txt = "which would find I'm U.S. co-op,include ending. without the .,but not ' - . rd- "
print (re.findall(r"\b\w+(?:['.-]\w+\.?)?",txt))
['which','would','find',"I'm",'U.S.','co-op','include','ending','without','the','but','not','rd']
,
冒着过度考虑您的实际问题的风险,这是我尝试使用以下假设:
- 您只想使用字母字符
[A-Za-z]
。 - 您不希望在
"let's play co-op."
等情况下匹配尾随点。 - 最后,我猜您还想捕获双连字符(如
"non-English-speaking"
)和不只是一个点的缩写词。
因此,我想出的是:
\b[a-z]+(?:(?:(\.)|['-])[a-z]+\1?)*
查看在线demo。
-
\b
- 单词边界。 -
[a-z]+
- 1+ 个字母字符。 -
(?:
- 打开第一个非捕获组:-
(?:
- 打开第 1 个非捕获组:-
(\.)|['-]
- 第一个包含点或连字符或撇号的捕获组。 -
)[a-z]+\1?
- 关闭第二个非捕获组,匹配 1 个以上的字母字符,并可选择匹配第一个捕获组中捕获的内容(因此是一个点)。
-
-
)*
- 关闭第一个非捕获组并匹配 0 次以上。
-
在 Python 中,它可能类似于:
import re
txt = "which would find I'm U.S. co-op,but not ' - . rd- "
lst = [m.group(0) for m in re.finditer(r"\b[a-z]+(?:(?:(\.)|['-])[a-z]+\1?)*",txt,re.I)]
print(lst) # ['which','rd']
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。