微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

是否可以使用预先保留的模型和现有词汇 + 新人声进行文本分类?

如何解决是否可以使用预先保留的模型和现有词汇 + 新人声进行文本分类?

我正在关注the video tutorial 8 - NLP 这是the notebook

有一次我用 imdb 文本训练了模型并将其保存为模型。

然后我可以像这样使用相同的词汇再次加载预训练模型:

dls_clas = DataBlock(
    blocks=(TextBlock.from_folder(path,vocab=dls_lm.vocab),CategoryBlock),get_y = parent_label,get_items=partial(get_text_files,folders=['train','test']),splitter=GrandparentSplitter(valid_name='test')
).DataLoaders(path,path=path,bs=128,seq_len=72)

现在,我有一个完全不同的 NLP 任务,即对评论进行分类(10 个类别)。 我想仍然使用这个预先准备好的模型作为基础模型,并将我的新任务中的词汇添加到现有词汇中以重新训练最后几层,因此它可以识别类似:COVID-19

我在想

  1. 从新任务中获取新词汇
  2. 将新词汇附加到现有词汇中
  3. 将组合词传递给数据块

但我在 Fastai's tutorial 中看到了这条评论

我们必须使用与微调时完全相同的词汇 我们的语言模型,或者学习的权重没有任何意义。

所以这意味着我无法添加新词汇……那我该怎么办?

有人可以给我一个想法吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。