为什么生成大量随机数据的速度要慢得多？

如何解决为什么生成大量随机数据的速度要慢得多？

我想生成大量随机数。我编写了以下 bash 命令（请注意，我在此处使用 cat 用于演示目的；在我的实际用例中，我将数字通过管道传输到进程中）：

for i in {1..99999999}; do echo -e "$(cat /dev/urandom | tr -dc '0-9' | fold -w 5 | head -n 1)"; done | cat

这些数字的打印速度非常低。但是，如果我生成的数量较少，则速度会快得多：

for i in {1..9999}; do echo -e "$(cat /dev/urandom | tr -dc '0-9' | fold -w 5 | head -n 1)"; done | cat

请注意，唯一的区别是 9999 而不是 99999999。

这是为什么？数据是否在某处缓冲？有没有办法优化这一点，以便随机数立即通过管道/流式传输到 cat 中？

解决方法

这是为什么？

生成 {1..99999999} 100000000 个参数然后解析它们需要从 bash 分配大量内存。这会显着拖延整个系统。

此外，从 /dev/urandom 读取大量数据，其中大约 96% 的数据被 tr -dc '0-9' 过滤掉。这会显着耗尽熵池并额外拖延整个系统。

数据是否缓存在某处？

每个进程都有自己的缓冲区，所以：

cat /dev/urandom 正在缓冲
tr -dc '0-9' 正在缓冲
fold -w 5 正在缓冲
head -n 1 正在缓冲
管道的左侧 - 外壳，有自己的缓冲区
右侧 - | cat 有自己的缓冲区

那是 6 个缓冲位置。即使忽略来自 head -n1 和管道右侧 | cat 的输入缓冲，也就是 4 个输出缓冲区。

另外，拯救动物和stop cat abuse。使用 tr </dev/urandom，而不是 cat /dev/urandom | tr。有趣的事实 - tr 不能将文件名作为参数。

有没有办法优化这一点，以便随机数立即通过管道/流传输到 cat 中？

删除整个代码。

仅从随机源中获取您需要的尽可能少的字节。要生成 32 位数字，您只需要 32 位 - 没有更多。要生成 5 位数字，您只需要 17 位 - 舍入为 8 位字节，即只有 3 个字节。 tr -dc '0-9' 是一个很酷的技巧，但绝对不应在任何实际代码中使用它。

奇怪的是 recently I answered I guess a similar question，从那里复制代码，你可以：

for ((i=0;i<100000000;++i)); do echo "$((0x$(dd if=/dev/urandom of=/dev/stdout bs=4 count=1 status=none | xxd -p)))"; done | cut -c-5
# cut to take first 5 digits

但这仍然会令人无法接受缓慢，因为它为每个随机数运行 2 个进程（我认为只取前 5 位数字的分布会很糟糕）。

我建议使用 $RANDOM，在 bash 中可用。如果没有，请使用 $SRANDOM 如果您真的想要 /dev/urandom（并且真的知道您为什么想要它）。如果没有，我建议使用真正的编程语言（如 C、C++、python、perl、ruby）从 /dev/urandom 编写随机数生成。我相信有人可以用 awk 写出来。

以下看起来不错，但仍然将二进制数据转换为十六进制，只是稍后将它们转换为十进制是该外壳无法处理二进制数据的解决方法：

count=10;
# take count*4 bytes from input
dd if=/dev/urandom of=/dev/stdout bs=4 count=$count status=none |
# Convert bytes to hex 4 bytes at a time
xxd -p -c 4 |
# Convert hex to decimal using GNU awk
awk --non-decimal-data '{printf "%d\n","0x"$0}'

你为什么要循环运行？您只需运行一组这些命令即可生成所有内容，例如：

cat /dev/urandom | tr -dc '0-9' | fold -w 5 | head -n 100000000

即只需生成一个数字流，而不是单独生成它们。

我建议为此使用另一种语言，它应该更有效率。例如，在 Python 中它只是：

from random import randrange
for _ in range(100000000):
    print(randrange(100000))

@SamMason 给出了迄今为止最好的 answer，因为他完全消除了循环：

cat /dev/urandom | tr -dc '0-9' | fold -w 5 | head -n 100000000

不过，这仍然有很大的改进空间。首先，tr -dc '0-9' 只使用了来自 /dev/urandom 的大约 4% 的东西:-) 其次，根据这些随机数最终将如何被消耗，可能会产生一些额外的开销来摆脱前导零 - 以便某些数字不会被解释为八进制。让我提出一个更好的替代方案，使用 od 命令：

outputFile=/dev/null  # For test. Replace with the real file.
count=100000000

od -An  -t u2  -w2  /dev/urandom | head -n $count >$outputFile

使用 time 命令进行的快速测试表明，这大约比 tr 版本快四倍。而且真的没有必要使用“另一种语言”，因为 od 和 head 都经过高度优化，并且整个过程都以原生速度运行。

注意： 以上命令将生成 16 位整数，范围从 0 到 65535（含）。如果您需要更大的范围，那么您可以选择 32 位数字，这将为您提供从 0 到 4294967295 的范围：

od -An  -t u4  -w4  /dev/urandom | head -n $count >$outputFile

如果需要，最终用户可以使用模数除法将它们缩小到所需的大小。

为什么生成大量随机数据的速度要慢得多？

如何解决为什么生成大量随机数据的速度要慢得多？

解决方法

相关推荐