解释 Cohen 的 kappa 用法背后的直觉

我需要了解使用 Cohen's kappa 来衡量两个分类数据集的可靠性背后的直觉。

公式 Po - Pe / 1 - Pe 可以解释为我们处理概率吗？我在某处看到过这种方法，而不是实际准确性和预期准确性的解释，所以我想从这个角度来构建我的问题。

“Po”将是在给定数据集中的元素的情况下，两个分析器赋予它们相同标签的实际概率。这个概率被估计为“符合的案例数/总元素数”。

“Pe”是分析器分配相同类别的概率，但在统计独立的情况下。假设类别是“a”和“b”。

Pe 将等于 P(a) + Pe(b)，它是提取 a 元素的预期概率加上提取 b 元素的预期概率之和，两者都在统计的情况下独立。（我想我没有真正理解为什么这应该是正确的）

其次，考虑到 P(a)，我们会得到 P(a) = P-a1(a) * P-a2(a)

找到 a 元素的概率是分析器 1 将元素标记为“a”的概率的乘积 * 来自分析器 2 的相同概率。

A1 已将标签“a”分配给元素的概率可以估计为 A1 在整个元素数量中将元素标记为 A 的次数。

与标签“b”相同。

我对所有流程的解释是：

我们想知道找到它们都标记为相同的元素的概率。这应该是 P(a U b) = Pa + Pb。 A1 和 A2 都分配了一个元素类别“a”的概率将是 P(A1-a,A2-a) = PA1(a) * PA2(a) 的联合概率，最后这些被估计为相对频率。

这个思考过程是正确的还是我误解了某些观点？

预先感谢您的帮助。