如何解释班级的回忆召集差异？

如何解决如何解释班级的回忆召集差异？

我正在用BERT对德国推文进行情感分析。

我的数据类方式完全不平衡，例如负2000，正2000和中性8000。因此，我尝试了各种平衡技术，最后使用GPT-2可以达到良好的效果。

当我现在用平衡数据集训练模型时，我得到的F1为〜88％，这对我来说是好事。但是，当我查看每个类的查全率和精确度值时，就会得到：

           precision    recall  f1-score   support

Negative       0.85      0.94      0.89       696
 Neutral       0.86      0.68      0.76       636
Positive       0.84      0.92      0.88       572

如何解释中性类别的召回差异？

这是为什么，在这种情况下我该怎么办？