如何解决如何将一个非常大的文件导入 R用逗号分隔
我有一个包含超过一百万行数据的 xls
文件。一切都在一列中,并用逗号分隔。 Excel打开需要很长时间,我只需要两条信息——客户ID和交易金额。
我的方法是将文件导入R(以逗号分隔),然后提取我需要的两列。问题是导入后所有内容仍然在一列中。我已经尝试过 read.csv(file,sep = ",")
中的 read_csv(file,col_names = T)
和 readr
。没有一个工作。但是,我将前五行另存为另一个 xls
文件以进行测试,并且导入正常(正确分隔),没有任何问题。
我也尝试过 cSplit
用逗号分割导入的数据集,但我得到了 Error: C stack usage 14478558 is too close to the limit
。我想这是由于文件大小。很抱歉,我无法提供可复制的示例,但数据如下所示,有一百万行:
customer_id,type,note_number,amount,company
1,cc,abc,5,A
2,dc,bcd,7,B
3,cde,10,C
编辑
感谢@akrun 建议data.table::fread(file)
,函数的警告信息让我意识到源文件中的,
中的某些字段包含""
。使导入和分离变得更加棘手的是,有些文件有多个 ""
。例如,某人的名字可以显示为 ""Joh,Dep""
而不是 "Joh Dep"
。
此外,正如@RonakShah 所建议的,我创建了一个 sample test file。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。