我可以在不对我的特定数据集进行任何微调的情况下将BERT用作特征提取器吗？

如何解决我可以在不对我的特定数据集进行任何微调的情况下将BERT用作特征提取器吗？

我正在尝试用相对平衡的训练集（由〜25K样本组成）和评估集（由〜5K样本）组成的10类多标签分类任务。

我正在使用拥抱面

model = transformers.BertForSequenceClassification.from_pretrained(...

并获得相当不错的结果（ROC AUC = 0.98）。

但是，我目睹了一些奇怪的行为，但我似乎并没有意识到-

我添加以下代码行：

for param in model.bert.parameters():
    param.requires_grad = False

同时确保学习了模型的其他层，即：

[param[0] for param in model.named_parameters() if param[1].requires_grad == True]
gives
['classifier.weight','classifier.bias']

像这样配置模型时，训练模型会产生令人尴尬的效果（ROC AUC = 0.59）。

我在假设现成的预训练BERT模型（不进行任何微调）的情况下应该用作分类层的相对较好的特征提取器。那么，我在哪里弄错了？

解决方法

根据我的经验，您的假设是错误的

开箱即用的预训练BERT模型（无任何微调）应该用作分类层的相对较好的特征提取器。

当我尝试使用BERT的输出层作为几乎没有微调的词嵌入值时，我注意到类似的经历，这也给出了非常差的结果；因为您实际上以最简单的输出层形式具有768*num_classes连接，所以这也很有意义。与BERT的数百万个参数相比，这对密集的模型复杂性的控制量几乎可以忽略不计。但是，尽管我确信您已经意识到这一点，但我也想在训练完整模型时谨慎指出过度拟合的结果。

BERT的整个想法是可以很便宜地微调模型，因此要获得理想的结果，我建议不要冻结任何层。可以禁用至少部分层的一种实例是嵌入组件，具体取决于模型的词汇量（对于BERT-Base，约为30k）。

我认为以下内容将有助于揭开我之前在此报道的奇怪行为的神秘面纱–

首先，事实证明，当冻结BERT层（并使用开箱即用的预训练BERT模型而不进行任何微调）时，分类层所需的训练时期数就很大大于允许学习所有层时所需的数量。

例如，

在不冻结BERT层的情况下，我已经达到：

\d+

因此，冻结BERT层时，我已经达到：

ROC AUC = 0.98,train loss = 0.0988,validation loss = 0.0501 @ end of epoch 1

ROC AUC = 0.99,train loss = 0.0484,validation loss = 0.0433 @ end of epoch 2

Overfitting,train loss = 0.0270,validation loss = 0.0423 @ end of epoch 3

从这些结果中得出的（可能的）结论是，使用现成的预训练BERT模型作为特征提取器（即冻结其层），而仅学习分类层会受到以下影响拟合。

这可以通过两种方式演示：

首先，运行1000个纪元后，该模型仍未完成学习（训练损失仍然高于验证损失）。

第二，运行1000个时间段后，损耗值仍高于非冻结版本早在第一个时间段时所达到的值。

总结一下，@ dennlinger，我想我对此完全同意：

BERT的整个想法是，微调模型非常便宜，因此，为了获得理想的结果，我建议不要冻结任何层。

我可以在不对我的特定数据集进行任何微调的情况下将BERT用作特征提取器吗？

如何解决我可以在不对我的特定数据集进行任何微调的情况下将BERT用作特征提取器吗？

解决方法

相关推荐