如何解决R - 统计 - 如何知道两对值是否与两个数据集显着不同= 相关性的异常值
首先,对不起标题。由于我是统计数据的真正菜鸟,因此知道如何表达我的问题非常复杂......
话虽如此,我会尽量说清楚。感谢您的耐心等待 ! 这是一个示例数据:
dput(test)
structure(list(coords = c("chr11:71478469-71480755","chr11:72233163-72233655","chr11:72237796-72238263","chr11:72688537-72692753","chr11:72688537-72693325","chr11:73390921-73392211"),dPSI.BM_PrePB = c(-0.211854387676934,0.291806579364004,0.333357771512903,-0.314633537078126,0.27350910457179,0.263596043484295),dPSI.BM_Bact = c(-0.326793349890209,0.287308483987104,0.332897018970844,0.225803052051341,-0.226736267092175,0.262209354876416
)),row.names = 825:830,class = "data.frame")
我的完整数据大约有 4400 行。
所以我需要知道两个数据集是否相关(我的示例数据的 dPSI.BM_PrePB 和 dPSI.BM_Bact 列)。以下是我的 2 个真实数据集的摘要。
summary(mergeboth$dPSI.BM_PrePB)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.94914 -0.32776 0.21163 0.01302 0.31650 0.94582
summary(mergeboth$dPSI.BM_Bact)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-0.96366 -0.32977 0.21163 0.01103 0.31833 0.95622
我做了皮尔逊相关,很明显我的两个数据集是相关的,我还用散点图将其可视化: Scatterplot of pearson correlation
现在我的问题是:我需要提取少数“异常值”(看起来它在我的 4400 个中不到 100 个),因为它在另一项研究中具有生物学影响。我正在考虑一种比较价值对的方法,以获得显着不同的价值,但我无法理解它。我只是不知道该怎么做。 我还在许多主题中看到检索异常值很复杂(例如可能涉及设置阈值),所以我不能从相关性分析开始,对吗? 我知道我们可以测试两个总体的均值,但我对均值不感兴趣,我对与其他事件明显不遵循相同行为的精确值感兴趣。
非常感谢您的建议。 祝你今天过得愉快 ! :)
艾莎
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。