如何解决是否有R包或函数对数据集进行二次采样以近似某个分布?
我有两组数据(a,b)具有不同的分布。集b具有更多数据点,并且也具有更多变化。我需要以最接近集合a分布的方式对集合b进行子采样。尽管集合b的均值实质上更大,但是集合'a'中的某些值也很大,需要保留在集合a中。
我可以开始对集合b的上下范围进行修整以获得相似的均值,但是标准差是不可比较的。我考虑的下一件事情是做一堆排列,在其中我随机地对集合b进行子采样,直到发现子采样的集合b分布与集合的分布没有不同的情况(如ks.test在R stats中评估)。我想我想知道是否有一个软件包或函数可以可靠地做到这一点(或者也许更合适)。
示例数据集:
a = c(rnorm(n = 100,平均值= 0,sd = sqrt(.1)),4,7,10)
b = rnorm(n = 1000,平均值= 3,sd = sqrt(4))
b = b [which(b> = min(a))]范围(a)
[1] -0.6215744 10.0000000
范围(b)
[1] -0.5520407 8.7371966sd(a)
[1] 1.287062
sd(b)
[1] 1.834108
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。