微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

解释 Cohen 的 kappa 用法背后的直觉

如何解决解释 Cohen 的 kappa 用法背后的直觉

我需要了解使用 Cohen's kappa 来衡量两个分类数据集的可靠性背后的直觉。

  1. 公式 Po - Pe / 1 - Pe 可以解释为我们处理概率吗?我在某处看到过这种方法,而不是实际准确性和预期准确性的解释,所以我想从这个角度来构建我的问题。

“Po”将是在给定数据集中的元素的情况下,两个分析器赋予它们相同标签的实际概率。这个概率被估计为“符合的案例数/总元素数”。

“Pe”是分析器分配相同类别的概率,但在统计独立的情况下。假设类别是“a”和“b”。

Pe 将等于 P(a) + Pe(b),它是提取 a 元素的预期概率加上提取 b 元素的预期概率之和,两者都在统计的情况下独立。 (我想我没有真正理解为什么这应该是正确的)

其次,考虑到 P(a),我们会得到 P(a) = P-a1(a) * P-a2(a)

找到 a 元素的概率是分析器 1 将元素标记为“a”的概率的乘积 * 来自分析器 2 的相同概率。

A1 已将标签“a”分配给元素的概率可以估计为 A1 在整个元素数量中将元素标记为 A 的次数

标签“b”相同。

我对所有流程的解释是:

我们想知道找到它们都标记为相同的元素的概率。这应该是 P(a U b) = Pa + Pb。 A1 和 A2 都分配了一个元素类别“a”的概率将是 P(A1-a,A2-a) = PA1(a) * PA2(a) 的联合概率,最后这些被估计为相对频率。

这个思考过程是正确的还是我误解了某些观点?

  1. 我仍然不明白为什么我们应该使用这个度量作为两个数据集之间一致性程度的估计器。除了他们以相同方式分类的实例数量之外,还有什么能带给我们更多?

预先感谢您的帮助。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。