dask-dataframe - 编程之家

技术频道

公众号推荐

微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦！

dask-dataframedask-dataframe专题提供dask-dataframe的最新资讯内容，帮你更好的了解dask-dataframe。

LocalCluster如何影响任务数量？

是否需要在LocalCluster内部或外部进行计算（例如dask方法dd.merge）？是否需要在LocalCluster内部或外部进行

作者：佚名时间：2022-06-08

过滤dask.delayed对象

假设我有一个<code>dask.delayed</code>函数，该函数通常返回一个熊猫数据帧，但有时返回<code>None</code>。如

作者：佚名时间：2022-06-08

如何使用Dask对字符串使用函数？

我有一个大数据集，最近被介绍给Dask。我正在尝试标记每一行中的文本。如下所示，这在熊猫中很容易

作者：佚名时间：2022-06-07

达不到数据框valueError

我有几个<code>parquet</code>文件（数据帧），我将它们作为一个简单的数据帧图和示例加载。然后，我根

作者：佚名时间：2022-06-06

堆叠一个dask数据框

为清楚起见，让我们来看看下面的<code>dask.dataframe</code> <pre><code> A B date 0 1 3 jan 1 2 5 fev

作者：佚名时间：2022-06-06

TypeError：agg获得了意外的关键字参数

我正在研究dask groupby，这里遇到了一些问题我已经定义了我的custom_max，它运行起来很好，而且没

作者：佚名时间：2022-06-06

迭代Dask数据框

我正在尝试从数百个大型CSV文件的单列中创建Keras <a href="https://www.tensorflow.org/api_docs/python/tf/keras/preprocess

作者：佚名时间：2022-06-05

尝试使用Dask Describe时如何解决值错误？

我正在使用一个超过10GB的数据集。我已经成功使用代码将其导入到dask数据框中： <pre><code>df = dd.read_c

作者：佚名时间：2022-06-05

带有sklearn的Dask-ML随机森林导致连接关闭

我正在尝试使用Dask-ML训练模型。我的最终目标是对大于内存的数据集进行预测，因此我正在利用Dask的Par

作者：佚名时间：2022-06-04

如何串联Dask数据系列？

我试图将4个Dask系列作为列连接起来，以创建Dask DataFrame，但是它不起作用。 <pre><code>import dask.dataframe

作者：佚名时间：2022-06-04

在dask.dataframe上调用compute将datetime64 [ns]转换为对象

我在下面尝试过MCVE，但是它可以工作。但是，我的实木复合地板文件是在databricks中创建的，我现在正在

作者：佚名时间：2022-06-04

快速读取和分区数据帧，并最大限度地减少了峰值内存使用量

我有一个具有以下结构的数据框式数据集，存储为磁盘上的大量csv文件： <pre><code>[ target_col | timestamp_

作者：佚名时间：2022-06-04

达斯达克-合并并非并行且缓慢

我正在尝试将dask数据框加入其索引。我期望像Dask文档中所述的那样令人尴尬地并行工作，因此可以提高

作者：佚名时间：2022-06-04

与`map_partitions`并行化预测

我有一个形状为（25M，79）的数据框，正在尝试并行化sklearn管道预测。当我仅对一个分区运行它时

作者：佚名时间：2022-06-03

使用列表理解创建多个dask.Aggregate函数重复相同的计算

我一直在尝试在大型dask数据帧上计算一些汇总统计信息。所需的统计信息是最小值，最大值，均值和分

作者：佚名时间：2022-06-03

Dask read_parquet用于嵌套拼花文件

我有许多csv文件（超过90个）对于内存（每个压缩文件〜0.5gb）太大，它们都具有相同的架构。我想转换

作者：佚名时间：2022-06-02

将文本文件读入 Dask DataFrame

我希望在大约 100,000 个文本文件上训练模型。 Pandas 遇到了一些内存问题，决定迁移到 Dask。我正

作者：佚名时间：2022-06-02

Dask 数据框：获取每个排序组的第一行

我有一个包含以下格式的 dask 数据框： <pre class="lang-py prettyprint-override"><code>import pandas as pd import numpy

作者：佚名时间：2022-06-02

如何在 dask 数据框中使用级别值进行索引？

从对数据集初始值的过滤步骤开始，我有一个更大数据集的索引子集，格式为 <pre class="lang-py prettyprin

作者：佚名时间：2022-06-02

从 Dask 数据框列创建列表的方法

我想从 Dask Dataframe 列创建一个列表/集。基本上，我想使用此列表通过将值与此数据框中的列匹配来过滤

作者：佚名时间：2022-06-01

小编推荐

苹果市值2025年有望达4万亿美元