微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

我们可以将 .txt 文件加载到 vaex 吗?

如何解决我们可以将 .txt 文件加载到 vaex 吗?

我有 52.6 GB 大小的 .txt 文件文件夹。 .txt 文件位于不同的子文件夹中。每个子文件夹都有唯一的标签“F”、“G”等。每个子文件夹都有许多 .txt 文件。我需要将每个唯一标签(“F”、“G”)的所有 .txt 文件合并到一个文件中。我尝试使用 vaex。但是我找不到对 .txt 文件执行此操作的方法。有人可以帮我吗?

解决方法

如果文本文件具有 csv 格式的数据,并且文件之间的结构相同,您可以使用:

df = vaex.open_many([fpath1,fpath2,...,fpathX])

要获取所有文件名及其路径,您可以方便地使用 pathlib 递归地对文件路径进行 glob

from pathlib import Path

txt_files = Path('your_label_folder_path').rglob('*.txt')

# since this returns a generator and vaex.open_many expects a list 
# and while we're here,resolve the absolute path as well
txt_files = [txt.absolute() for txt in txt_files]

df = vaex.open_many(txt_files)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。