如何解决个体变量和分组变量对多变量数据集总异质性的贡献
我有一个数据集,该数据集描述了具有不同环境指标(连续定量数据)的野外参考地点。我提出了一个假设,即我的数据集之间的异质性反映了生态系统的异质性。
我想解决两个问题:
- 这些(各组)指标对我的数据集中的总体异质性有何不同?我还想按指标组来解决这个问题:某组指标如何促进总异质性?
- 这些(各组)指标如何描述总异质性?
在下面,我尝试用ade4包中“ doubs”数据集的环境部分作为玩具数据集来制作一个可重现的示例。
library(ade4)
# This data set gives environmental variables,fish species and spatial coordinates for 30 sites.
data("doubs")
# extacting the environmental variables
env_heterogeneity <- doubs$env
head(env_heterogeneity)
# selecting 2 groups of environmental parameters
env_heterogeneity_physical <- env_heterogeneity[,1:4] # physical/morphology parameters
env_heterogeneity_chemical <- env_heterogeneity[,5:11] # chemical parameters
我发现了不同的工具来评估两组指标之间的相似程度,在我的案例中,它们可以洞察它们关于异质性的共同点。使用ade4
包中的协惯性方法,我可以运行RV.rtest
,它是Pearson相关系数的多元概括。它测试两个矩阵是否链接:
# how similar to each other the two groups of parameters?
RV.rtest(env_heterogeneity_physical,env_heterogeneity_chemical)
# Monte-Carlo test
# Call: RV.rtest(df1 = env_heterogeneity_physical,df2 = env_heterogeneity_chemical)
#
# Observation: 0.3940863
#
# Based on 99 replicates
# Simulated p-value: 0.01
# Alternative hypothesis: greater
#
# Std.Obs Expectation Variance
# 5.949961197 0.050383996 0.003336849
我还可以在素食主义者包装中使用基于冗余分析的方差分配方法,这在下面告诉我,化学参数的71%的变化可以用物理参数来解释:
# how physical/morphological parameters can describe the variability of chemical parameters ?
library(vegan)
RDA_1 <- rda(X = env_heterogeneity_physical,Y = env_heterogeneity_chemical)
summary(RDA_1)
# Call:
# rda(X = env_heterogeneity_physical,Y = env_heterogeneity_chemical)
#
# Partitioning of variance:
# Inertia Proportion
# Total 5300660 1.0000
# Constrained 3786549 0.7144
# Unconstrained 1514111 0.2856
据我所知,这些技术使我可以解决问题2),但不能解决第一个问题!
通过阅读这篇文章,您是否想到了一种优雅的统计方法来解决问题1),甚至更好,同时解决这两个问题?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。