为什么多头自注意力机制可以比单头学习更多的特征？

最近我正在研究 Transformer 机制，其中包含一个称为多头自注意力机制的机制。在浏览了很多关于它是如何工作的详细博客后，我只得到一个印象，这个机制是为模型设计的，用于孤立地提取不同类型的特征。

然而，虽然它们的训练过程是孤立的，但它们的网络结构、初始化方式和计算方式是完全相同的。因此，似乎应该将这些 Heads 训练成相同的结果，更不用说提取不同类型的特征了。

然而，事情不可能像我想的那样，所以我在徘徊，如果有什么我想念的，或者我有什么误解？谢谢大家！