微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

正则表达式查找一个或多个字符,包括中间有句号、撇号或连字符的字符如果最后一个符号只出现一次,则没有最后一个符号

如何解决正则表达式查找一个或多个字符,包括中间有句号、撇号或连字符的字符如果最后一个符号只出现一次,则没有最后一个符号

re.findall(r'[A-Za-z]+(?=\'|\.|\-[A-Za-z]+)?',txt) 
re.findall(r'[A-Za-z\.\-]+(?:\'[A-Za-z]+)?',txt)

输入

txt = "which would find I'm U.S. co-op,include ending. without the .,but not ' - . rd- "

expected_output

['which','would','find',"I'm","U.S.",'co-op','include','ending','without','the','but','not','rd']

我尝试了上述方法和变体,但无法正常工作。怎么做?

解决方法

您可以使用此正则表达式使用 findall 进行匹配:

\w+(?:['.-]\w+\.?)?

RegEx Demo

正则表达式详情:

  • \w+:匹配 1 个以上的单词字符
  • (?:['.-]\w+\.?)?:可选的非捕获组,以 '.- 开头,后跟 1 个以上的单词字符和可选的尾随点。

代码:

import re
txt = "which would find I'm U.S. co-op,include ending. without the .,but not ' - . rd- "
print (re.findall(r"\b\w+(?:['.-]\w+\.?)?",txt))

['which','would','find',"I'm",'U.S.','co-op','include','ending','without','the','but','not','rd']
,

冒着过度考虑您的实际问题的风险,这是我尝试使用以下假设:

  • 您只想使用字母字符 [A-Za-z]
  • 您不希望在 "let's play co-op." 等情况下匹配尾随点。
  • 最后,我猜您还想捕获双连字符(如 "non-English-speaking")和不只是一个点的缩写词。

因此,我想出的是:

\b[a-z]+(?:(?:(\.)|['-])[a-z]+\1?)*

查看在线demo

  • \b - 单词边界。
  • [a-z]+ - 1+ 个字母字符。
  • (?: - 打开第一个非捕获组:
    • (?: - 打开第 1 个非捕获组:
      • (\.)|['-] - 第一个包含点连字符或撇号的捕获组。
      • )[a-z]+\1? - 关闭第二个非捕获组,匹配 1 个以上的字母字符,并可选择匹配第一个捕获组中捕获的内容(因此是一个点)。
    • )* - 关闭第一个非捕获组并匹配 0 次以上。

在 Python 中,它可能类似于:

import re
txt = "which would find I'm U.S. co-op,but not ' - . rd- "
lst = [m.group(0) for m in re.finditer(r"\b[a-z]+(?:(?:(\.)|['-])[a-z]+\1?)*",txt,re.I)]
print(lst) # ['which','rd']

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?