Python - 读取和打印大 .txt 文件的前 n 行

如何解决Python - 读取和打印大 .txt 文件的前 n 行

我使用 python3 并且我想读取并打印 .txt 的前 N ​​行(该文件是 40GB+,因此由于 RAM 限制我无法打开它)。我只想了解文件结构(列、变量名、分隔符……)。使用下面的代码,Python 给了我 [] 作为输出(而不是我想要的打印行):

from itertools import islice

with open("filename.txt") as myfile:
    head = list(islice(myfile,1,25))
print(head)

我也尝试在文件名旁边添加 'r',但没有成功。我只想能够读取前 N 行(无论是 25 行、5,10 还是 15,我不在乎)。

嗨,下面的回复是针对 .txt 文件(而不是 Python 代码)。我完全改变了我的方法并尝试使用 pd.read_csv 读取最初的 100 行,如下所示:

dfcontact2 = pd.read_csv('filename.txt',sep='|',names=['col1'],nrows=100)
dfcontact2.head(5)

代码输出

enter image description here

其中第 0 行是变量名称。我在每一行的末尾看不到任何 '\n' 字符,所以我猜文件不是按行结构的,但是为什么输出是按行提供的?我错过了什么?

非常感谢您的时间。 最好的,

解决方法

您的代码看起来不错,所以很可能是您的文件有问题!

文件 myfile.txt(现在是 filename.txt

  • 没有多于一行的内容(您的逻辑会跳过第一行作为 zvone 注释中的注释),所以当从索引中读取时1(第 2 行),您会发现它的计算结果约为

    >>> list(islice(["file line 1"],1,25))
    []
    

    更多示例

    >>> list(islice(["file line 1"],25))  # don't skip line 1
    ['file line 1']
    >>> list(islice(["file line 1","file line 2"],25)) # multiple lines
    ['file line 2']
    
  • 确实存在(不引发 FileNotFoundError

    >>> open("foo.missing")
    Traceback (most recent call last):
      File "<stdin>",line 1,in <module>
    FileNotFoundError: [Errno 2] No such file or directory: 'foo.missing'
    

测试,代码对我有用,更改为从索引 0 而不是 1 读取

>>> with open("myfile2.txt",'w') as fh:
...     for x in range(100):
...         fh.write("line {}\n".format(x))
...
[output clipped]
>>> from itertools import islice
>>> with open("myfile2.txt") as fh:
...     head = list(islice(fh,25))
...
>>> head
['line 0\n','line 1\n','line 2\n','line 3\n','line 4\n','line 5\n','line 6\n','line 7\n','line 8\n','line 9\n','line 10\n','line 11\n','line 12\n','line 13\n','line 14\n','line 15\n','line 16\n','line 17\n','line 18\n','line 19\n','line 20\n','line 21\n','line 22\n','line 23\n','line 24\n']
,
head = []
with open("filename.txt") as myfile
    for _ in range(25):
        head.append(myfile.readline())
print(head)

文件 IO 基于缓存策略。如果太大,整个文件将不会在内存中。如果您readline,则只会缓存该行周围的一些块。

如果失败,我认为该文件不是文本文件或者它不包含\n,所以单个readline耗尽了整个内存。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?