对于多项式建模问题，应该更多地关注整体预测精度还是条件精度？

如何解决对于多项式建模问题，应该更多地关注整体预测精度还是条件精度？

现在，我正在进行一项社会科学项目，目的是在数据集上建立（某种）多项式logit回归模型。在我的模型中，允许在群集/组中观察到示例的异质性，并且通过GLM线性分量中的截距项将其进入模型。

我首先使用聚类算法在样本中建立分组/聚类，然后假设聚类内观察足够均匀，可以共享一个公共的拦截项。因此，样本中存在的簇数（K）成为模型的超参数。

为了获得K的值，我对K进行网格搜索，以使整体预测精度（与类别无关）最大化。也就是说，

For K in 1:20
    Cluster the sample with K-medoids algorithm
    Estimate my model with Newton's method
    Predict the multinomial outcomes of the instances; obtain confusion matrix given K
    Store Accuracy(K)
End

，我选择产生最高准确度（K）的K。对于每个K，我还获得了混淆矩阵。

但是，这又引发了另一个问题：我们是否关心条件预测的准确性，就像混淆矩阵的主对角线上的项一样？这些条目实质上是对正确预测的细分，它取决于实例所属的类别。

我之所以这样问，是因为我有2个K值，产生了非常接近的整体预测精度，而其中一个混淆矩阵的对角线比另一个混淆矩阵更“偶”：

案例1 ：K = 1（总准确度= 52.43％）

True/Pred(%) 1      2     3      4
    1    47.37  43.09  8.55   0.99
    2    16.99  59.85  16.60  6.56
    3    7.47   31.87  37.14  23.52
    4    1.59   10.68  25.68  62.05

案例2 ：K = 3（总准确度= 54.25％）

True/Pred(%) 1      2     3      4
    1     32.89  60.20  5.26   1.64
    2     10.42  70.40  9.78   9.40
    3     5.71   38.90  23.96  31.43
    4     0.45   14.09  13.64  71.82

其中上面2个矩阵的每一行都显示行总数的百分比。

由于数据来自类似普查的调查，请不要怪我获得了如此低的准确性模型。这在社会科学和数据集中都是正常的。比那些更“完美”的科学数据要多得多。同样，该项目的目的是解释性的，而不是预测性的或机器学习的。有一个足够合适的模型就足够了。

在这种情况下，我应该牺牲情况2 的额外总体预测准确性，还是为了使情况1 的条件准确性更高？

非常感谢大家：）