如何解决名称 'tokenizer' 未定义
def mytokenizer(document):
words = tokenizer.tokenize(document.lower())
return words
from nltk.tokenize import sent_tokenize,word_tokenize
mytokenizer('My name is Amar!')
解决方法
在使用之前,您需要从导入的两个标记生成器之一定义/初始化标记生成器。 要么
tokenizer= sent_tokenize() #if you want to split text into sentences by punctuation
或
tokenizer= word_tokenize() #if you want to split text into word tokens
您可能还需要为该操作从 nltk 下载“punkt”包,因此如果您收到与此相关的错误,请执行以下操作:
import nltk
nltk.download("punkt")
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。