微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!
dask-dataframe专题提供dask-dataframe的最新资讯内容,帮你更好的了解dask-dataframe。
我正在尝试将大量 csv 导入单个数据帧,并希望在特定日期之后过滤数据。 它抛出以下错误不知道
我有一个大约 1500 万行的数据集,pandas 无法在其中执行 for 循环。我正在尝试使用 dask 数据帧来加快执
我有一些代码,可以将 Pandas 数据帧转换为 dask 数据帧,并对行应用一些操作。代码过去工作得很好,但
我正在尝试将大 <code>.parquet</code> 作为 dask 数据帧读取并对其进行采样: <pre class="lang-py prettyprint-overr
我很难理解什么时候什么时候不应该在 Dask 数据帧中使用 <code>compute()</code>。我通常通过添加/删除 <code>c
我正在尝试使用 dask bag 首先读取嵌套的大 json 文件,然后将其展平为 dask 数据框,然后将其另存为 csv。
我在一个文件夹中有大量 json 文件。我想阅读它们并将它们保存在一个数据库中。我曾想过使用熊猫数
我知道以前有人问过类似的问题,但他们的解决方案并不是很有帮助。我想最好的解决方案可能更具体
我知道此类问题已被问过多次,但这些解决方案都没有帮助我。所以我针对我的特殊情况发布了另一个
我有一个名为 <code>data</code> 的 Dask 数据帧,它非常大,无法放入主内存中,而且重要的是未排序。数据
我有一个数据集,每个样本有 3 个索引 (j,i,k) 和两个矩阵,比如说 A 和 B。我想对 j,i 进行分组,然后对
我正在调用以下数据框 <a href="https://stackoverflow.com/questions/68231492/importing-large-csv-file-using-dask">here</a> 并在
关于如何从 Pandas 制作大型 dask 数据框的文档很少。所以我开始创建一个 hdf5 文件。数据帧结构类似于:
我一直在尝试调整我的代码以利用 Dask 来利用多台机器进行处理。虽然初始数据加载并不耗时,但后续
基本上这是针对 <a href="https://stackoverflow.com/questions/12497402/python-pandas-remove-duplicates-by-columns-a-keeping-the-row-
我是 Dask 的新手,并使用行组将 Pandas Dataframe 导出到 Parquet: <pre><code>x.to_parquet(path + &#39;ohlcv_TRX-PERP_9
谁能帮我理解如何在 Dask 中读取多个 excel 文件? 在 Pandas 中,我会使用 Glob 并执行此操作 <pre><code>fil
是否有专家可以对 Dask 和 Spark 以及其他数据库加速器之间的机制提供一些见解? Spark 对系统来说似乎是
我想在自定义调度程序上运行 Dask 任务,类似于 Dask on Ray 的工作方式。 目前,我使用 Dask 的配置
我正在使用 Dask 导入一个非常大的 csv 文件 ~680GB,但是,输出不是我所期望的。我的目标是只选择一些