如何解决是否可以使用预先保留的模型和现有词汇 + 新人声进行文本分类?
我正在关注the video tutorial 8 - NLP 这是the notebook
有一次我用 imdb 文本训练了模型并将其保存为模型。
然后我可以像这样使用相同的词汇再次加载预训练模型:
dls_clas = DataBlock(
blocks=(TextBlock.from_folder(path,vocab=dls_lm.vocab),CategoryBlock),get_y = parent_label,get_items=partial(get_text_files,folders=['train','test']),splitter=GrandparentSplitter(valid_name='test')
).DataLoaders(path,path=path,bs=128,seq_len=72)
现在,我有一个完全不同的 NLP 任务,即对评论进行分类(10 个类别)。 我想仍然使用这个预先准备好的模型作为基础模型,并将我的新任务中的词汇添加到现有词汇中以重新训练最后几层,因此它可以识别类似:COVID-19
我在想
- 从新任务中获取新词汇
- 将新词汇附加到现有词汇中
- 将组合词传递给数据块
但我在 Fastai's tutorial 中看到了这条评论:
我们必须使用与微调时完全相同的词汇 我们的语言模型,或者学习的权重没有任何意义。
所以这意味着我无法添加新词汇……那我该怎么办?
有人可以给我一个想法吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。