如何解决有没有一种使用from_pretrained转换器方法推断Torchtext的方法?
all
将vocab.txt,special_tokens_map.json和tokenizer_config.json保存到我的输出目录中, 可用的火车模型存储在pytorch_model.bin中,并且配置也在那里。
如何将它们用于推理,最好与torchtext一起使用?
解决方法
为了执行推理,您必须按如下方式再次加载令牌生成器和模型(这里我假设您训练的模型是BertForSequenceClassification
):
tokenizer = BertTokenizer.from_pretrained("path_to_directory")
model = BertForSequenceClassification.from_pretrained("path_to_directory")
“ path_to_directory”是字符串,例如"./model"
(如果您的目录称为“ model”,并且您当前位于其父目录中)。标记器和模型自动从目录中推断出它们需要哪些文件。标记器将使用vocab.txt文件,模型将使用config.json文件设置其超参数,并使用pytorch_model.bin文件加载预训练的权重。您只需要确保所有这些文件都位于该目录中即可。
您知道如何为BERT等模型提供新句子吗?我对TorchText不熟悉,但是您可以执行以下推断:
sentence = "This is a new sentence"
inputs = tokenizer(sentence,padding='max_length',truncation=True,return_tensors="pt")
outputs = model(**inputs)
令牌生成器会将句子转换为BERT可以理解的格式(即输入ID,令牌类型ID等作为PyTorch张量),包括填充和截断。 outputs
变量是一个Python元组,包含原始logits。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。