微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

nltk.tokenize.TweetTokenizer 下划线处理不一致

如何解决nltk.tokenize.TweetTokenizer 下划线处理不一致

我正在处理一些社交媒体数据,并注意到 nltk.tokenize.TweetTokenizer 处理下划线不一致。我一生都无法弄清楚它使用的规则,但希望有人能启发我。

示例输入 1:

text = "covid_19 is a scary virus"
tt = TweetTokenizer()
tt.tokenize(text)

输出:['covid','_19','is','a','scary','virus']

示例输入 2:

text = "co_19 is a scary virus"
tt = TweetTokenizer()
tt.tokenize(text)

输出:['co_19','virus']

我尝试了各种其他的字母、数字和下划线组合,但结果不一致。我唯一确定的是,所有带下划线的字母都不会分开,而主题标签似乎可以保证下划线不会分开。见下文。

示例输入 3:

text = "#covid_19 is a scary virus my_friend"
tt = TweetTokenizer()
tt.tokenize(text)

输出:['#covid_19','virus','my_friend']

帮助?解释?我真的不想让它分裂covid_19,不管有没有hashtag。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。