如何解决如何使字节级令牌生成器不拆分<adjective>令牌?
我有带有自定义标记的文本,例如:<adjective>
,我正在尝试准备一个不会拆分它们的字节级标记生成器:
tokenizer.pre_tokenizer = ByteLevel()
tokenizer.pre_tokenizer.pre_tokenize("<adjective>")
[('Ġ<',(0,2)),('adjective',(2,11)),('>',(11,12)]
如何添加<adjective>
作为特殊令牌,而不是令牌生成器不应拆分的令牌?
解决方法
可以通过以下方式添加拥抱面转换器API中的分词器新令牌:
tokenizer.add_tokens('<adjective>')
这会将”添加为单个令牌。
这还需要将模型更新为:
model.resize_token_embeddings(len(tokenizer))
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。