微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

对于多项式建模问题,应该更多地关注整体预测精度还是条件精度?

如何解决对于多项式建模问题,应该更多地关注整体预测精度还是条件精度?

现在,我正在进行一项社会科学项目,目的是在数据集上建立(某种)多项式logit回归模型。在我的模型中,允许在群集/组中观察到示例的异质性,并且通过GLM线性分量中的截距项将其进入模型。

我首先使用聚类算法在样本中建立分组/聚类,然后假设聚类内观察足够均匀,可以共享一个公共的拦截项。因此,样本中存在的簇数(K)成为模型的超参数。

为了获得K的值,我对K进行网格搜索,以使整体预测精度(与类别无关)最大化。也就是说,

For K in 1:20
    Cluster the sample with K-medoids algorithm
    Estimate my model with Newton's method
    Predict the multinomial outcomes of the instances; obtain confusion matrix given K
    Store Accuracy(K)
End

,我选择产生最高准确度(K)的K。对于每个K,我还获得了混淆矩阵。

但是,这又引发了另一个问题:我们是否关心条件预测的准确性,就像混淆矩阵的主对角线上的项一样?这些条目实质上是对正确预测的细分,它取决于实例所属的类别。

我之所以这样问,是因为我有2个K值,产生了非常接近的整体预测精度,而其中一个混淆矩阵的对角线比另一个混淆矩阵更“偶”:​​

案例1 :K = 1(总准确度= 52.43%)

True/Pred(%) 1      2     3      4
    1    47.37  43.09  8.55   0.99
    2    16.99  59.85  16.60  6.56
    3    7.47   31.87  37.14  23.52
    4    1.59   10.68  25.68  62.05

vs

案例2 :K = 3(总准确度= 54.25%)

True/Pred(%) 1      2     3      4
    1     32.89  60.20  5.26   1.64
    2     10.42  70.40  9.78   9.40
    3     5.71   38.90  23.96  31.43
    4     0.45   14.09  13.64  71.82

其中上面2个矩阵的每一行都显示行总数的百分比。

由于数据来自类似普查的调查,请不要怪我获得了如此低的准确性模型。这在社会科学和数据集中都是正常的。比那些更“完美”的科学数据要多得多。同样,该项目的目的是解释性的,而不是预测性的或机器学习的。有一个足够合适的模型就足够了。

在这种情况下,我应该牺牲情况2 的额外总体预测准确性,还是为了使情况1 的条件准确性更高?

非常感谢大家:)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。