如何解决我们可以将 .txt 文件加载到 vaex 吗?
我有 52.6 GB 大小的 .txt 文件文件夹。 .txt 文件位于不同的子文件夹中。每个子文件夹都有唯一的标签“F”、“G”等。每个子文件夹都有许多 .txt 文件。我需要将每个唯一标签(“F”、“G”)的所有 .txt 文件合并到一个文件中。我尝试使用 vaex。但是我找不到对 .txt 文件执行此操作的方法。有人可以帮我吗?
解决方法
如果文本文件具有 csv 格式的数据,并且文件之间的结构相同,您可以使用:
df = vaex.open_many([fpath1,fpath2,...,fpathX])
要获取所有文件名及其路径,您可以方便地使用 pathlib
递归地对文件路径进行 glob
from pathlib import Path
txt_files = Path('your_label_folder_path').rglob('*.txt')
# since this returns a generator and vaex.open_many expects a list
# and while we're here,resolve the absolute path as well
txt_files = [txt.absolute() for txt in txt_files]
df = vaex.open_many(txt_files)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。