发现人群之间的差异

如何解决发现人群之间的差异

我有2019年和2020年的等效数据。2020年诊断的比例似乎与2019年有所不同，但我想...

a）统计检验人口是否不同。 b）确定哪些类别最不同。

我已经确定可以使用以下命令执行“ a”操作：

chisq.test(test$count.2020,test$count.2019)

我不知道如何找出2020年至2019年之间最不同的类别。任何帮助都将是惊人的，谢谢！

diagnosis <- data.frame(mf_label = c("Audiovestibular","Autonomic","Cardiovascular","Cerebral palsy","Cerebrovascular","COVID","Cranial nerves","CSF disorders","Developmental","Epilepsy and conscIoUsness","Functional","Head injury","Headache","Hearing loss","Infection","Maxillofacial","Movement disorders","Muscle and NMJ","Musculoskeletal","Myelopathy","Neurodegenerative","Neuroinflammatory","Peripheral nerve","Plexopathy","Psychiatric","Radiculopathy","Spinal","Syncope","Toxic and nutritional","Tumour","Visual system"),count.2019 = c(5,1,2,4,3,7,24,22,18,12,0),count.2020 = c(5,28,9,11,13,30,5,68,57,14,8,16,37,27,17,11))

解决方法

您的卡方检验不正确。您需要将计数作为表格或矩阵提供，而不是作为两个单独的向量提供。因为您对一半单元格的期望值非常小，所以需要使用仿真来估计p值：

chisq.test

整个表几乎没有任何意义，仅为.05。 ?chisq.test函数返回一个列表，其中包括原始数据，期望值，残差和标准化残差。手册页描述了这些内容（{{1}}，并提供了一些引用以获取更多详细信息。