如何解决Pandas - 读取 CSV - dtype='string'、dtype=str 和 dtype='object' 之间的区别
将CSV文件读入pandas时,设置dtype时下面三个选项有区别吗?
选项 1
df = pd.read_csv('file.csv',dtype='string')
选项 2
df = pd.read_csv('file.csv',dtype=str)
选项 3
df = pd.read_csv('file.csv',dtype='object')
选项 2 和选项 3 似乎明显比选项 1 快(我正在阅读具有 30,000 行和 500 列的 CSV),这表明这些选项的工作方式有所不同。但是,我找不到任何说明为什么会出现这种情况的文档 - 请有人解释一下吗?
解决方法
the documentation of pandas.read_csv 中 Parameters 部分的
dtype 问题清楚地表明
“使用 str 或 object 以及合适的 na_values 设置来保留和不解释 dtype”。
这种解释会产生额外的负担,例如性能损失,特别是对于大尺寸的数据帧。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。