个体变量和分组变量对多变量数据集总异质性的贡献

如何解决个体变量和分组变量对多变量数据集总异质性的贡献

我有一个数据集，该数据集描述了具有不同环境指标（连续定量数据）的野外参考地点。我提出了一个假设，即我的数据集之间的异质性反映了生态系统的异质性。

我想解决两个问题：

这些（各组）指标对我的数据集中的总体异质性有何不同？我还想按指标组来解决这个问题：某组指标如何促进总异质性？
这些（各组）指标如何描述总异质性？

在下面，我尝试用ade4包中“ doubs”数据集的环境部分作为玩具数据集来制作一个可重现的示例。

library(ade4)
# This data set gives environmental variables,fish species and spatial coordinates for 30 sites.
data("doubs")

# extacting the environmental variables
env_heterogeneity <- doubs$env
head(env_heterogeneity)

# selecting 2 groups of environmental parameters
env_heterogeneity_physical <- env_heterogeneity[,1:4] # physical/morphology parameters
env_heterogeneity_chemical <- env_heterogeneity[,5:11] # chemical parameters

我发现了不同的工具来评估两组指标之间的相似程度，在我的案例中，它们可以洞察它们关于异质性的共同点。使用ade4包中的协惯性方法，我可以运行RV.rtest，它是Pearson相关系数的多元概括。它测试两个矩阵是否链接：

# how similar to each other the two groups of parameters?
RV.rtest(env_heterogeneity_physical,env_heterogeneity_chemical) 

# Monte-Carlo test
# Call: RV.rtest(df1 = env_heterogeneity_physical,df2 = env_heterogeneity_chemical)
# 
# Observation: 0.3940863 
# 
# Based on 99 replicates
# Simulated p-value: 0.01 
# Alternative hypothesis: greater 
# 
# Std.Obs Expectation    Variance 
# 5.949961197 0.050383996 0.003336849

我还可以在素食主义者包装中使用基于冗余分析的方差分配方法，这在下面告诉我，化学参数的71％的变化可以用物理参数来解释：

# how physical/morphological parameters can describe the variability of chemical parameters ?
library(vegan)
RDA_1 <- rda(X = env_heterogeneity_physical,Y = env_heterogeneity_chemical)
summary(RDA_1)

# Call:
#   rda(X = env_heterogeneity_physical,Y = env_heterogeneity_chemical) 
# 
# Partitioning of variance:
#   Inertia Proportion
# Total         5300660     1.0000
# Constrained   3786549     0.7144
# Unconstrained 1514111     0.2856

据我所知，这些技术使我可以解决问题2），但不能解决第一个问题！

通过阅读这篇文章，您是否想到了一种优雅的统计方法来解决问题1），甚至更好，同时解决这两个问题？

个体变量和分组变量对多变量数据集总异质性的贡献

如何解决个体变量和分组变量对多变量数据集总异质性的贡献

相关推荐