我如何改进我的 nlp 模型以对 4 种不同的精神疾病进行分类？

如何解决我如何改进我的 nlp 模型以对 4 种不同的精神疾病进行分类？

我在 csv 中有一个包含 2 列的数据集：1 是确定患者精神疾病类型的标签，另一个是来自该用户特定时间段的相应 reddit 帖子。这些是每组疾病的患者总数：

控制：3000
抑郁症：2118
双极：1062
ptsd：330
精神分裂症：148

首先，我尝试在抑郁症患者和双相情感障碍患者之间进行二元分类。我使用了 tfidf 向量并将其输入 2 种不同类型的分类器：MultinomialNB 和 SVM。这是代码示例：使用多项式NB：

text_clf = Pipeline([('vect',CountVectorizer()),('tfidf',TfidfTransformer()),('clf',MultinomialNB()),])
text_clf = text_clf.fit(x_train,y_train)

使用支持向量机：

text_clf_svm = Pipeline([('vect',('clf-svm',SGDClassifier(loss='hinge',penalty='l2',alpha=1e-3,random_state=42)),])
text_clf_svm = text_clf_svm.fit(x_train,y_train)

这些是我的结果：

              precision    recall  f1-score   support

 bipolar       0.00      0.00      0.00       304

depression     0.68      1.00      0.81       650

accuracy                           0.68       954


macro avg       0.34      0.50      0.41       954

weighted avg    0.46      0.68      0.55       954

问题在于模型只是简单地预测所有患者属于较大数据样本的类别，在这种情况下，所有患者都被预测为抑郁症患者。我也尝试过使用 BERT，但我得到了相同的准确性。我使用 LIWC 词典阅读了有关它们的论文，这些类别包括表征语言风格和语言心理方面的变量。我不明白我所做的是否正确，或者是否有更好的方法使用 NLP 进行分类，如果是这样，请赐教。感谢任何遇到这么大的帖子并事先分享他们的想法的人！