微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在 azure ML 中过滤 TabularDataset

如何解决在 azure ML 中过滤 TabularDataset

我的数据集很大。我正在使用 Azure ML 笔记本并使用 azureml.core 读取日期集并转换为 azureml.data.tabular_dataset.TabularDataset。无论如何我会过滤表格数据集中的数据而不转换为熊猫数据框。 我正在使用下面的代码来读取数据。由于数据很大,熊猫数据框内存不足。我不必将完整的数据加载到程序中。只需要子集。有什么办法可以在转换为熊猫数据框之前过滤记录

def read_Dataset(dataset):
    ws = Workspace.from_config()
    ds = ws.datasets
    tab_dataset = ds.get(dataset)
    dataframe = tab_dataset.to_pandas_dataframe()
    return dataframe

解决方法

目前我们只支持简单采样,按列名过滤,以及日期时间(reference here)。表格数据集上的完全过滤功能(例如按列值)是未来几个月即将推出的功能。一旦该功能准备就绪,我们将更新我们的公共文档。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。