为什么生成大量随机数据的速度要慢得多?

如何解决为什么生成大量随机数据的速度要慢得多?

我想生成大量随机数。我编写了以下 bash 命令(请注意,我在此处使用 cat 用于演示目的;在我的实际用例中,我将数字通过管道传输到进程中):

for i in {1..99999999}; do echo -e "$(cat /dev/urandom | tr -dc '0-9' | fold -w 5 | head -n 1)"; done | cat

这些数字的打印速度非常低。但是,如果我生成的数量较少,则速度会快得多:

for i in {1..9999}; do echo -e "$(cat /dev/urandom | tr -dc '0-9' | fold -w 5 | head -n 1)"; done | cat

请注意,唯一的区别是 9999 而不是 99999999

这是为什么?数据是否在某处缓冲?有没有办法优化这一点,以便随机数立即通过管道/流式传输到 cat 中?

解决方法

这是为什么?

生成 {1..99999999} 100000000 个参数然后解析它们需要从 bash 分配大量内存。这会显着拖延整个系统。

此外,从 /dev/urandom 读取大量数据,其中大约 96% 的数据被 tr -dc '0-9' 过滤掉。这会显着耗尽熵池并额外拖延整个系统。

数据是否缓存在某处?

每个进程都有自己的缓冲区,所以:

  • cat /dev/urandom 正在缓冲
  • tr -dc '0-9' 正在缓冲
  • fold -w 5 正在缓冲
  • head -n 1 正在缓冲
  • 管道的左侧 - 外壳,有自己的缓冲区
  • 右侧 - | cat 有自己的缓冲区

那是 6 个缓冲位置。即使忽略来自 head -n1 和管道右侧 | cat 的输入缓冲,也就是 4 个输出缓冲区。

另外,拯救动物和stop cat abuse。使用 tr </dev/urandom,而不是 cat /dev/urandom | tr。有趣的事实 - tr 不能将文件名作为参数。

有没有办法优化这一点,以便随机数立即通过管道/流传输到 cat 中?

删除整个代码。

仅从随机源中获取您需要的尽可能少的字节。要生成 32 位数字,您只需要 32 位 - 没有更多。要生成 5 位数字,您只需要 17 位 - 舍入为 8 位字节,即只有 3 个字节。 tr -dc '0-9' 是一个很酷的技巧,但绝对不应在任何实际代码中使用它。

奇怪的是 recently I answered I guess a similar question,从那里复制代码,你可以:

for ((i=0;i<100000000;++i)); do echo "$((0x$(dd if=/dev/urandom of=/dev/stdout bs=4 count=1 status=none | xxd -p)))"; done | cut -c-5
# cut to take first 5 digits

但这仍然会令人无法接受缓慢,因为它为每个随机数运行 2 个进程(我认为只取前 5 位数字的分布会很糟糕)。

我建议使用 $RANDOM,在 bash 中可用。如果没有,请使用 $SRANDOM 如果您真的想要 /dev/urandom(并且真的知道您为什么想要它)。如果没有,我建议使用真正的编程语言(如 C、C++、python、perl、ruby)从 /dev/urandom 编写随机数生成。我相信有人可以用 awk 写出来。

以下看起来不错,但仍然将二进制数据转换为十六进制,只是稍后将它们转换为十进制是该外壳无法处理二进制数据的解决方法:

count=10;
# take count*4 bytes from input
dd if=/dev/urandom of=/dev/stdout bs=4 count=$count status=none |
# Convert bytes to hex 4 bytes at a time
xxd -p -c 4 |
# Convert hex to decimal using GNU awk
awk --non-decimal-data '{printf "%d\n","0x"$0}'
,

你为什么要循环运行?您只需运行一组这些命令即可生成所有内容,例如:

cat /dev/urandom | tr -dc '0-9' | fold -w 5 | head -n 100000000

即只需生成一个数字流,而不是单独生成它们。

我建议为此使用另一种语言,它应该更有效率。例如,在 Python 中它只是:

from random import randrange
for _ in range(100000000):
    print(randrange(100000))
,

@SamMason 给出了迄今为止最好的 answer,因为他完全消除了循环:

cat /dev/urandom | tr -dc '0-9' | fold -w 5 | head -n 100000000

不过,这仍然有很大的改进空间。首先,tr -dc '0-9' 只使用了来自 /dev/urandom 的大约 4% 的东西:-) 其次,根据这些随机数最终将如何被消耗,可能会产生一些额外的开销来摆脱前导零 - 以便某些数字不会被解释为八进制。让我提出一个更好的替代方案,使用 od 命令:

outputFile=/dev/null  # For test. Replace with the real file.
count=100000000

od -An  -t u2  -w2  /dev/urandom | head -n $count >$outputFile

使用 time 命令进行的快速测试表明,这大约比 tr 版本快四倍。而且真的没有必要使用“另一种语言”,因为 odhead 都经过高度优化,并且整个过程都以原生速度运行。

注意: 以上命令将生成 16 位整数,范围从 0 到 65535(含)。如果您需要更大的范围,那么您可以选择 32 位数字,这将为您提供从 0 到 4294967295 的范围:

od -An  -t u4  -w4  /dev/urandom | head -n $count >$outputFile

如果需要,最终用户可以使用模数除法将它们缩小到所需的大小。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)&gt; insert overwrite table dwd_trade_cart_add_inc &gt; select data.id, &gt; data.user_id, &gt; data.course_id, &gt; date_format(
错误1 hive (edu)&gt; insert into huanhuan values(1,&#39;haoge&#39;); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive&gt; show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 &lt;configuration&gt; &lt;property&gt; &lt;name&gt;yarn.nodemanager.res