微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用from_pandas从Oracle数据库到vaex的5,000万条记录

如何解决使用from_pandas从Oracle数据库到vaex的5,000万条记录

以下代码来自vaex文档:

pandas_df = pd.read_sql_query('SELECT * FROM MYTABLE',con=engine)
df = vaex.from_pandas(pandas_df,copy_index=False)

说明

我的数据比RAM多。 但是,当我使用上述代码时,它会尝试提取熊猫数据框中的所有数据。 因此,为了解决这个问题,我使用了chunksize属性,它提供了一个生成器。

要再次从生成器转换为熊猫数据帧,需要内存。 下面是我尝试的代码

import vaex
df = pd.read_sql_query('select * from "user"."table"',conn,chunksize=1000000)
chunk_list = []
for i in df:
    chunk_list.append(i)
    data = pd.concat(chunk_list)
    df2 = vaex.from_pandas(data)
    alldat=df2.concat(df2)

请帮助我解决这个问题。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。