如何有效地对多标签分类问题的记录进行分类？

我有一个分类问题，大约有 11000 条文本记录，其中开始的 3000 条记录被分类（标记）为 4 个不平衡的类别，如下所示： {类别 1：343，类别 2：1494，类别 3：1069，类别 4：177}

我对这 3000 条文本记录执行了如下任务：

对数据进行标记化、去除停用词和词形还原文本，并使用词袋模型从中提取 100 个重复率最高的词。
使用 spaCy 提取了一些可能有助于分析的其他特征。
对数据进行标准化，以便所有特征都在同一规模上。
将数据集拆分为训练集 (75%) 和测试集 (25%)。
使用了各种算法，例如逻辑回归、SVM、决策树、神经网络等，并比较了它们的分数（准确度、Kappa 分数、F1 分数、精确度、召回率）。在所有这些随机森林中，结果证明在这种特定类型的数据上是最好的。

接下来，我想使用这个先前训练的随机森林分类器对所有其他 8000 条记录进行分类。

现在，我应该使用所有 3000 条记录重新训练分类器，然后预测新记录，还是应该使用仅在前 3000 条记录的 75% 上训练的模型直接预测记录？

注意：我还尝试使用 SMOTE 对不平衡的类进行采样。但是，在执行 SMOTE 之后，当我尝试预测新记录的结果时，该模型高度高估了记录，而偏向于实际较少的类，即（类别 1 和类别 4）。