如何解决如何在 dask 分布式集群中使用 dask_ml 预处理
如何在 dask 分布式集群中进行 dask_ml 预处理?我的数据集大约 200GB,每次我对准备 OneHotEncoding 的数据集进行分类时,看起来 dask 都在忽略客户端并尝试将数据集加载到本地机器的内存中。也许我错过了什么:
from dask_ml.preprocessing import Categorizer,DummyEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
import pandas as pd
import dask.dataframe as dd
df = dd.read_csv('s3://some-bucket/files*.csv',dtypes={'column': 'category'})
pipe = make_pipeline(
Categorizer(),DummyEncoder(),LogisticRegression(solver='lbfgs')
)
pipe.fit(df,y)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。