vaex - 编程之家

从包含 A B D P 列的数据框开始： <pre><code>import numba import numpy as np import pandas as pd import vaex d = {'A&#3

如何限制 <code>vaex</code> 使用的内核/线程/进程的数量？某些操作有一个布尔值 <code>parallel</code> 开关，但

<strong>说明</strong> 我有一个 python 代码，它顺序调用 <code>vaex.ml.catboost.CatBoostModel.fit</code> 3 次。需

我想生成数百万个大型二进制向量（10_000 ... 100_000 位）。然后我想通过 OVERLAP (AND) 将它们聚类。之后

我有一个字典，其中包含键值对列名称和值作为该列中允许值的列表如何用'0'替换字典列表中没有

我有一个带架构的数据集， <div class="s-table-container"> <table class="s-table"> <头> <tr> <th style="text-align: left;"

我想要几乎与 <code>pandas</code> 的回答 <a href="https://stackoverflow.com/a/13053267">here</a> 相同 - 但想在 <code>vaex</c

在 Pandas 中，我会这样做： <pre><code>df.groupby('key').first() </code></pre> vaex 中的等价物是什么？有

我想将值与字符串进行比较 <strong>我做到了</strong> <pre><code>df = df[df.s1 != 'NON eq'] </code></pre>

有人请给我这个代码的 VAEX 替代方案： <pre><code>df_train = vaex.open('../input/ms-malware-hdf5/train.csv.hdf5'

Arrow IPC 和 Feather 有什么区别？ <a href="https://arrow.apache.org/docs/python/feather.html" rel="nofollow noreferrer">off

我有一种情况，编写 PL/pgSQL 函数解决方案既慢又麻烦，而且可能是不可能的，因为我需要很多 python 模

有没有办法定义一个带有附加参数的函数？我的函数目前的工作方式如下： <pre><code>@vaex.register

我是 Dask 的新手，并使用行组将 Pandas Dataframe 导出到 Parquet： <pre><code>x.to_parquet(path + 'ohlcv_TRX-PERP_9

使用 Vaex，我想选择行，修改该选择中某些列的值，并将更改应用于原始数据框。我可以进行选择

我正在使用 Dask 导入一个非常大的 csv 文件 ~680GB，但是，输出不是我所期望的。我的目标是只选择一些

我已经撞了半天了。在数据管道中，我想将新数据与现有数据集合并。我已经使用 Pandas .concat() 完成了

我有一个时间序列的数据，我想使用 VAEX 来操作它。我需要对一个整数“物种”列进行分组，然后按分

我正在尝试加入两个全部由 vaex 导入的数据框。我认为这应该很简单，但我在使用 <code>vaex expressions</code

我想将较大的 csv 文件转换为 hdf5 格式。我正在使用 vaex 库，它只接受 hdf5 扩展名来加载数据集。我也需