从坐标标签计算 xarray 数据数组

如何解决从坐标标签计算 xarray 数据数组

我有一个带有两个变量（气象数据）随时间变化的 DataArray，y，x 坐标。 x 和 y 坐标在投影坐标系 (epsg:3035) 中并对齐，以便每个单元格几乎完全覆盖 1km LAEA reference grid

的标准单元格

我想准备数据以供在 Pandas 和/或数据库表中进一步使用，所以我想添加可以通过以下（伪）函数直接从 x 和 y 计算的 LAEA Gridcell 编号/标签

def func(cell):
    return r'1km{}{}'.format(int(cell['y']/1000),int(cell['x']/1000))      # e.g. 1kmN2782E4850

但就我所见，似乎不可能以某种方式将此函数应用于 DataArray 或 DataSet，以便我可以访问这些坐标变量（至少 .apply_ufunc() 并不是真的为我工作。

我稍后可以在 Pandas 上进行计算，但我的一些数据集包含 60 到 120 Mio。单元格/行/数据集和熊猫（即使使用 Numba）似乎在这个数量上有问题。在 xarray 上，我可以通过 dask 在 32 核上进行处理。

如果您就如何使这项工作获得任何建议，我将不胜感激。

编辑：关于我正在处理的数据的更多见解：

这是最大的一个，有 500 个 Mio 单元，但我能够将其下采样到平方公里的分辨率，最终得到大约 160 个 Mio。细胞

如果数据集足够小，我可以将其导出为 Pandas 数据帧并在那里进行计算，但由于内核经常崩溃，所以速度很慢而且不是很健壮

解决方法

您可以这样应用您的函数：

import xarray as xr

# ufunc
def func(x,y):
    #print(y)
     return r'1km{}{}'.format(int(y),int(x))

# test data
ds = xr.tutorial.load_dataset("rasm")

xr.apply_ufunc(
    func,ds.x,ds.y,vectorize=True,)

请注意，您不必在案例中列出 input_core_dims。

此外，由于您的函数未矢量化，因此您需要设置 vectorized=True:

vectorize : bool，可选如果为 True，则假设 func 仅采用在核心上定义的数组维度作为输入并自动矢量化 :py:func:numpy.vectorize。存在此选项是为了方便，但几乎总是比提供预先矢量化的函数慢。使用此选项需要 NumPy 1.12 或更高版本。

使用 vectorized 可能不是性能最好的选项，因为它本质上只是循环，但如果您将数据分块并使用 dask，它可能就足够了。

如果没有，您可以考虑创建一个矢量化函数，例如numba 肯定会加快速度。

可以在xarray tutorial on applying ufuncs

中找到更多信息 ,

您可以在 unvectorised way 中使用 apply_ufunc：

def func(x,y):
    return f'1km{int(y/1000)}{int(x/1000)}'  # e.g. 1kmN2782E4850

xr.apply_ufunc(
    func,# first the function
    x.x,# now arguments in the order expected by 'func'
    x.y
    )