微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!
dask-dataframe专题提供dask-dataframe的最新资讯内容,帮你更好的了解dask-dataframe。
我无法通过浏览器访问实验室环境,而且实验室可用的 dask 扩展到目前为止对我不起作用。 我希望能够
<strong>免责声明!!</strong>这是我第一次发帖,如果我不符合社区的某些标准,请见谅。<br/> _______________
我正在尝试重新分区多个 <code>.parquet</code> 文件以保存特定数量的镶木地板文件。我有一个时间序列数据
我正在尝试使用一个小例子来学习 Dask。基本上我读入一个文件并计算行均值。 <pre class="lang-py prettypr
我整天都在 dask 的网站上,但它仍然不适合我。 我有数据框,不同的列需要不同的预处理: <pre
拆分<code>partition_id</code>后是否可以得到<code>dask</code>中的<code>pandas DFs</code> 例如: <pre><code>import
我想将多个 csv 文件读入一个单一的 dask 数据帧。由于某些原因,我的原始数据的某些部分丢失了(不知
<strong>问题</strong>:尝试在索引上合并两个 Dask 数据帧时,我发现性能出乎意料地缓慢。我希望合并能够
我想读取 Spark 使用 Dask 和 pyarrow-dataset 引擎编写的分区镶木地板数据集。理想情况下,我将能够提供要
这是代码: <pre><code>import pandas as pd import dask.dataframe as dd import numpy as np a = pd.DataFrame({&#39;A&#39;:[&#34;Non
从数据库中获取数据时,Dask 数据框仅返回列名而不返回数据。 当我尝试从数据库中获取数据时,dask 数
我想从文本文件中提取一些数据到数据框: 文本文件看起来像这样 <pre><code>URL: http://www.nytimes.co
我想使用 dask 数据框中的列创建一个 dask 系列并将其添加到 dask 数据框中。创建新系列的函数可以是任
将元参数传递给 <code>groupby.apply</code> 时,我无法重置索引并删除与索引对应的列之一。 这是一个最小的
我是 Dask 的新手, 我有 152 个平均 200MB 的镶木地板文件。(32GB 机器 RAM) 每个文件都有时间
嗨,我是 dask 数据框的新手,正在研究它如何通过分布式计算来改善处理时间。我的代码正在使用 5m+ 行
我正在努力理解带有 dask 的自定义聚合函数 <a href="https://docs.dask.org/en/latest/dataframe-groupby.html#aggregate" rel=
我有 3 台机器 16 核 32GB 其中一台机器是调度器和工作器。 当我运行这段代码时: <pre
我想了解 Dask 对象的高效内存管理过程。我已经设置了一个 Dask GPU 集群,并且能够执行跨集群运行的任
我有两个数据框:<code>links</code> 有两个名为 <code>onset</code> 和 <code>offset</code> 的日期时间列,每一行都