如何解决在 Dask 中获取数据帧的 PARTITION_ID
拆分partition_id
后是否可以得到dask
中的pandas DFs
例如:
import dask.dataframe as dd
import pandas as pd
df = pd.DataFrame(np.random.randn(10,2),columns=["A","B"])
df_parts = dd.from_pandas(df,npartitions=2)
part1 = df_parts.get_partition(0)
在两部分中,part1
是 first_partition
。那么是否可以执行以下操作:
part1.get_partition_id() => which will return 0 or 1
或者是否可以通过迭代 get the partition ID
来 df_parts
?
解决方法
不确定内置函数,但您可以使用 enumerate(df_parts.to_delayed())
实现您想要的。
to_delayed
将生成一个延迟对象列表,每个分区一个,因此您可以迭代它们,并使用 enumerate
跟踪序列号。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。