dask-delayed - 编程之家

我正在尝试从mpi进程获取数据并使用dask处理该数据。为此，我创建了2个通信器，一个用于生产者进程，

我是dask的新手，正在考虑将其用于ml模型调整的并行化。我是否应该尝试dask-yarn或dask-kubernetes满足这种

我有一个.npy格式的大数据集，大小为（500000,18）。为了使用生成器将其馈入conv2D网络中，我分别插入了X

我有一个现有的Pandas代码库，并且刚刚开始尝试将其转换为Dask。我仍在尝试绕着Dask <code>dataframe</code>，<

我正在使用庞大的数据集解决<a href="https://www.kaggle.com/c/ieee-fraud-detection" rel="nofollow noreferrer">https://www.kagg

我有一个格式为<code>"[[Integer1, tag1], [Integer2, tag2]]"</code>的字符串作为dask系列中的值，并且想使用<c

在Node1（4CPU，8GB）上启动Dask Scheduler： Dask Scheduler：<code>dask-scheduler --host 0.0.0.0 --port 8786</code> <

我正在使用<code>dask</code>模块来迭代给定函数<code>processing</code>中的参数。我正在使用的脚本的片段如下

我有一个550,000行文本的<code>csv</code>文件。我将其读入pandas数据框，在其上循环并对其执行一些操作。这

我做了一个计时实验，但我不认为自己在正确使用<code>dask.delayed</code>。这是代码： <pre class="lang-py pre

我想创建一个包含CPU和GPU任务的Dask Delayed流。 GPU任务只能在GPU工作线程上运行，并且GPU工作线程只有一

假设我有一个<code>dask.delayed</code>函数，该函数通常返回一个熊猫数据帧，但有时返回<code>None</code>。如

与Matlab的<code>parloop</code>相比，我对Python的并行循环效率低感兴趣。在这里，我提出一个简单的寻根问

我想按时间维度对每年的数据集（netcdf文件）进行排序，然后取平均值。问题在于，dask仅支持“ topk”

我有一些grib格式的合奏文件，我想使用dask和xarray延迟加载到Python中。基于<a href="https://climate-cms.org/2018/0

我想使用DASK的延迟功能。不幸的是，我不清楚在具有多个返回值的模块上使用延迟功能。例如，如果我

我已经使用conda安装了dask。当我创建延迟函数并使用dask在我的PBS群集上运行它们时，如何确保工作节点

我需要从 teradata 中读取大量数据（大约 800M 条记录），我的代码可以很好地处理 100 万条记录。对于更

我在找出从内存数据缓存访问集群数据的最佳方式时遇到了一些困难。例如我有一个数据管理对象

我想将一行附加到 dask 数据帧中的特定分区。我尝试了很多方法，但没有一个是可行的。谁可以帮我这