微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

Vaex 数据框和表达式:过滤每第 n 行Python

如何解决Vaex 数据框和表达式:过滤每第 n 行Python

我有一些非常大的 hdf 文件(10e9 行,大约 100Gb)包含 [X,Y,Z,Sensor_0,...,Sensor_n] 值。 对于处理,我使用 vaex,这给了我很好和快速的结果。 但是,我正在努力解决以下问题:

我还没有找到只用 df 的每第 n 行创建一个新表达式对象的方法。在 Pandas 中,我会这样做:df_new_nth_X = df.X[::50] 只获取新 df 的每 50 个值,这对于我的 df 来说显然非常消耗内存。

所以我想“过滤”vaex df,或者在制作一个数组之前制作一个只包含第n个值的表达式对象。

这些问题似乎是非常基本的问题,但在阅读文档后我还没有找到解决方案。我什至不确定这对于内存映射对象是否可行...

最好的问候 巴斯蒂安

解决方法

你可以用一个很好的技巧来实现你想要的。考虑以下代码:

import vaex

# Example df that comes with vaex
df = vaex.example()

# Add a virtual index (takes no memory)
df['index'] = vaex.vrange(len(df))

# Make a filter / selection based on that index
# So getting one every 50 rows for example you can do
df[df.index % 50 == 0]['FeH'].values

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。