dask-delayed - 编程之家

我有一个 <a href="https://examples.dask.org/applications/embarrassingly-parallel.html" rel="nofollow noreferrer">embarrassingly paral

在旧工人死亡后添加新工人时，有没有办法重新提交工作（来自以前死去的工人）？是否可以使用

我正在研究对象检测，我有两个记录文件。 Train.tfrecord(1.6GB) 和 Test.tfrecord(65MB) 文件。我想在 Saturn Cloud

我有一个程序在 Jupyter Notebook 单元中运行时按预期运行，但在放入 python 文件并从 Jupyter Notebook 或命令行

我通过 Dask-K-means（基于 CPU）在形状为 (563, 207383) 的数据集上使用 K-means 聚类，并且收到以下错误： <

我遇到了 Dask 的问题，它达到了 'msgpack' 限制，并在对大型数据集进行 K-means 聚类时出现以下错误（就大

我在我的项目中使用了 Dask 和 cython，我在向客户端注册后调用了 cython 代码，并将从 cython 代码中获得的

我将 Dask 与 Slurm 集群一起使用： <pre><code>cluster = SLURMCluster(cores=64, processes=64, memory="128G", walltime

所以我正在尝试使用 dask 集群并行化该过程。这是我的尝试。准备集群： <pre><code>gateway = Gateway

拆分<code>partition_id</code>后是否可以得到<code>dask</code>中的<code>pandas DFs</code> 例如： <pre><code>import

我正在使用 Dask 构建计算图。一些中间值将被多次使用，但我希望这些计算只运行一次。我一定是犯了

我有一个应用程序，其中有一组可以进行大量设置的对象（每个对象最多需要 30 秒到 1 分钟）。设置好

我想使用 dask 数据框中的列创建一个 dask 系列并将其添加到 dask 数据框中。创建新系列的函数可以是任

根据此处的文档，我知道这是一个“禁忌”：<a href="https://docs.dask.org/en/latest/delayed-best-practices.html#avoid-ca

我有两个数据框：<code>links</code> 有两个名为 <code>onset</code> 和 <code>offset</code> 的日期时间列，每一行都

我将其分为两个部分，背景和问题。问题一直在底部。背景：假设我想（使用 Dask 分布式）

这是关于如何使用 Dask（特别是使用折叠）添加两个 DataFrame 的教科书问题......不过我似乎无法让它工作

我有一个名为 <code>data</code> 的 Dask 数据帧，它非常大，无法放入主内存中，而且重要的是未排序。数据

我有一个 <code>dask.delayed</code> 函数，它接受一个 <code>xarray.Dataarray</code> 作为参数并返回一个。我

如何在 dask 分布式集群中进行 dask_ml 预处理？我的数据集大约 200GB，每次我对准备 OneHotEncoding 的数据集