如何解决在大向量和大多数权重为零的情况下有效使用 Octave 的 randsample带权重
在即将进行的模拟项目中,我将遇到一种情况,我必须从加权意义上的巨大向量中随机抽取一个元素。对于向量的大多数元素,分配的权重为零。我也只需要绘制一个元素,所以替换或不替换功能无关紧要。
这个随机拣选步骤将成为我模拟的瓶颈,因此获得最佳效率和速度至关重要。
有什么技巧/窍门可以告诉我们什么是最好的做法?在我的项目中,是否有任何可能的重要节省?
PS:randsample 在大向量上可靠吗?
解决方法
查看statistics包中randsample.m
的源码。这实际上是一个非常简单的实现。它根据权重向量创建归一化的累积权重向量,然后通过标准逆采样对其进行有效采样。
我不知道你说的“巨大”是什么意思,但只要权重向量可以放入内存,就没有理由不快。
如果“巨大”是指不适合内存的东西,那么您可以创建此函数的“巨大版本”,将累积权重向量拆分为保存在磁盘上的可预测“垃圾箱”,并且仅执行逆采样从右边的垃圾箱。
我唯一要补充的是,考虑到实现并且您只对单次抽奖感兴趣,那么如果您将“替换”明确指定为“真”,那么您可能会从速度中受益,因为默认值为“false”(即没有替换),并且替换采样似乎避免了许多不必要和昂贵的步骤(排列等)。
,知道大多数权重都为零后,您可以从 Octave 源代码中重写 randsample
的更快实现。在我看来,它比原始实现快 6X-7X
:
function y = randsample_fast(v,w)
f = find(w);
w = w(f);
w = w / sum(w);
w = [0 cumsum(w)];
y = f(lookup (w,rand));
%y = f(find (w <= rand,1,"last"));
y = v(y);
end
- 假设输入是行向量。
- 将
find
更改为lookup
可能会稍微提高性能。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。