dask-dataframe - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

dask-dataframedask-dataframe专题提供dask-dataframe的最新资讯内容，帮你更好的了解dask-dataframe。

Dask - 查询时长度不匹配

我正在尝试将大量 csv 导入单个数据帧，并希望在特定日期之后过滤数据。它抛出以下错误不知道

作者：佚名时间：2022-05-03

使用if-else条件迭代dask数据帧

我有一个大约 1500 万行的数据集，pandas 无法在其中执行 for 循环。我正在尝试使用 dask 数据帧来加快执

作者：佚名时间：2022-05-01

类型错误：__dask_distributed_pack__() 需要 3 个位置参数，但给出了 4 个

我有一些代码，可以将 Pandas 数据帧转换为 dask 数据帧，并对行应用一些操作。代码过去工作得很好，但

作者：佚名时间：2022-05-01

具有未知块大小的样本 dask 数据帧

我正在尝试将大 <code>.parquet</code> 作为 dask 数据帧读取并对其进行采样： <pre class="lang-py prettyprint-overr

作者：佚名时间：2022-04-30

Dask 数据帧中“compute()”背后的逻辑是什么？

我很难理解什么时候什么时候不应该在 Dask 数据帧中使用 <code>compute()</code>。我通常通过添加/删除 <code>c

作者：佚名时间：2022-04-30

使用Dask读取嵌套JSON文件时遇到“NoneType Error”

我正在尝试使用 dask bag 首先读取嵌套的大 json 文件，然后将其展平为 dask 数据框，然后将其另存为 csv。

作者：佚名时间：2022-04-30

将多个 json 文件转换为单个 dask 数据框并将此数据框保存在数据库中编辑以获取更多信息

我在一个文件夹中有大量 json 文件。我想阅读它们并将它们保存在一个数据库中。我曾想过使用熊猫数

作者：佚名时间：2022-04-30

本地集群上的 Dask 数据加载：“Worker 超出了 95% 的内存预算”重新启动然后“KilledWorker”

我知道以前有人问过类似的问题，但他们的解决方案并不是很有帮助。我想最好的解决方案可能更具体

作者：佚名时间：2022-04-30

Dask 数据框比较两列并将结果真，假分配给另一列

我知道此类问题已被问过多次，但这些解决方案都没有帮助我。所以我针对我的特殊情况发布了另一个

作者：佚名时间：2022-04-28

在 Dask 数据框中滞后值的最佳方法是什么？

我有一个名为 <code>data</code> 的 Dask 数据帧，它非常大，无法放入主内存中，而且重要的是未排序。数据

作者：佚名时间：2022-04-28

将矩阵作为 dask 数据帧的单元格

我有一个数据集，每个样本有 3 个索引 (j,i,k) 和两个矩阵，比如说 A 和 B。我想对 j,i 进行分组，然后对

作者：佚名时间：2022-04-28

Dask 数据框中指定的列太多

我正在调用以下数据框 <a href="https://stackoverflow.com/questions/68231492/importing-large-csv-file-using-dask">here</a> 并在

作者：佚名时间：2022-04-28

Dask 从单个 hdf5 文件中加载多个“表”

关于如何从 Pandas 制作大型 dask 数据框的文档很少。所以我开始创建一个 hdf5 文件。数据帧结构类似于：

作者：佚名时间：2022-04-24

`ValueError: cannot reindex from a duplicate axis` 使用 Dask DataFrame

我一直在尝试调整我的代码以利用 Dask 来利用多台机器进行处理。虽然初始数据加载并不耗时，但后续

作者：佚名时间：2022-04-24

Dask Dataframe：按 A 列删除重复项，保留 B 列中具有最高值的行

基本上这是针对 <a href="https://stackoverflow.com/questions/12497402/python-pandas-remove-duplicates-by-columns-a-keeping-the-row-

作者：佚名时间：2022-04-23

从 Parquet 加载数据帧并计算 RAM 中的最大爆炸

我是 Dask 的新手，并使用行组将 Pandas Dataframe 导出到 Parquet： <pre><code>x.to_parquet(path + 'ohlcv_TRX-PERP_9

作者：佚名时间：2022-04-23

使用 Dask 读取多个 Excel 文件

谁能帮我理解如何在 Dask 中读取多个 excel 文件？在 Pandas 中，我会使用 Glob 并执行此操作 <pre><code>fil

作者：佚名时间：2022-04-23

Dask 与 Spark 或 pySpark

是否有专家可以对 Dask 和 Spark 以及其他数据库加速器之间的机制提供一些见解？ Spark 对系统来说似乎是

作者：佚名时间：2022-04-22

自定义 Dask 调度程序与客户端

我想在自定义调度程序上运行 Dask 任务，类似于 Dask on Ray 的工作方式。目前，我使用 Dask 的配置

作者：佚名时间：2022-04-21

使用 Dask 导入大型 CSV 文件

我正在使用 Dask 导入一个非常大的 csv 文件 ~680GB，但是，输出不是我所期望的。我的目标是只选择一些

作者：佚名时间：2022-04-21

小编推荐

苹果市值2025年有望达4万亿美元