tsv-utils 介绍
tsv-utils (TSV Utilities) 由 eBay
开源,是一组用于操作大型表格数据文件的命令行工具,适用于机器学习、数据挖掘和类似环境中的数字及文本数据,支持过滤、抽样、统计计算等操作。tsv-utils
在使用大数据集的时候尤其有优势,它比起提供类似功能的其他工具,有着更快的速度(对比数据可查阅 2018 Comparative Benchmarks
Update)。
tsv-utils 的工作方式类似于传统的 unix 命令行工具(如cut、 sort和
grep),每个工具都是一个独立的可执行文件。这些工具包括:
- tsv-sample - 取样输入行或随机排序,包含许多抽样方法。
- tsv-join - 使用字段作为键连接多个文件中的行。
- tsv-uniq - 使用字段作为键筛选出重复行。
- tsv-pretty - 输出对齐的 TSV 数据,以便在命令行上查看。
- csv2tsv - 将 CSV 文件转码成 TSV。
- number-lines - 给输入行编号。
- ……
tsv-utils 官网
https://github.com/eBay/tsv-utils
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。