如何解决从 Future 创建惰性 xarray 对象
我有一个 dask.delayed
函数,它接受一个 xarray.Dataarray
作为参数并返回一个。
我正在创建其中一些延迟任务,并使用 client.compute
将它们传递给 dask.distributed
。每次调用计算都会返回一个 distributed.client.Future
,表示将要返回的数据数组。
我的问题是:
有没有办法在不从worker加载实际数据的情况下从未来再次构建一个“懒惰”的数据数组?我的意图是基于第一次计算的输出构建第二个任务图。
我见过 client.gather
但这似乎将所有数据拉回客户端,这不是我想要的。
这是一个小例子:
import dask
from distributed import Client
import xarray as xr
# load example data
x = xr.tutorial.open_dataset("air_temperature")
# use first timestep
x_t0 = x.isel(time=0)
# delayed 'processing' function
@dask.delayed
def fun(x):
return x*2
# init client
client = Client()
# compute on worker
future = client.compute(fun(x_t0))
# when done
print(future)
# <Future: finished,type: xarray.Dataset,key: fun-96cd56f4-4ed3-4eac-ade9-fe3f17e4b8c6>
## now how to get back to lazy xarray from future?
解决方法
我不知道你到底想达到什么目的。可能有比从未来创建新数组更好的方法来做到这一点。话虽如此,这将从您的数据创建一个新的数据数组: 你必须不调用计算来保持它的懒惰。
(如果你想要一个 dask 数组而不是一个 xarray 数组,请删除 xr.DataArray)
import dask
from distributed import Client
import xarray as xr
# load example data
x = xr.tutorial.open_dataset("air_temperature")
# use first timestep
x_t0 = x.isel(time=0)
# delayed 'processing' function
@dask.delayed
def fun(x):
return x*2
# init client
client = Client()
# Create lazy xarray object from future:
import dask.array as da
new_ds = xr.DataArray(da.from_delayed(client.persist(fun(x_t0)),shape=x_t0.air.shape,meta='f8'),coords=x.coords)
编辑:添加了 client.persist 以在客户端上保留数据
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。