微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python – 比较两个文本文件,删除重复的行,并将结果写入新的文本文件

我有两个文本文件(行数/大小不相等).我想将较短文本文件的每一行与较长文本文件的每一行进行比较.比较一下,如果有任何重复的字符串,我想删除它们.最后,我想将结果写入新的文本文件并打印内容.

是否有一个简单的脚本可以为我做这个?

任何帮助将非常感激.

文本文件不是很大.一个有大约10行,另一个有大约5.我试过的代码(失败的代码)如下:

for line in file2:
line1 = line
for line in file1:
    requested3 = file('request2.txt','a')
    if fnmatch.fnmatch(line1,line):
        line2 = line.replace(line,"")
        requested3.write(line2)
    if not fnmatch.fnmatch(line1,line):
        requested3.write(line+'\n')


    requested3.close()

解决方法

with open(longfilename) as longfile,open(shortfilename) as shortfile,open(newfilename,'w') as newfile:
    newfile.writelines(line for line in shortfile if line not in set(longfile))

就这么简单.这会将行从shortfile复制到newfile,而不必将它们全部保存在内存中,如果它们也存在于longfile中.

如果您使用的是Python 2.6或更早版本,则需要嵌套with语句:

with open(longfilename) as longfile: 
    with open(shortfilename) as shortfile:
        with open(newfilename,'w') as newfile:

如果您使用的是Python 2.5,则需要:

from __future__ import with_statement

文件的最顶部,或者只是使用

longfile = open(longfilename)

等等,并自己关闭每个文件.

如果你需要操作这些行,那么显式的for循环很好,重要的部分是set().查找集合中的项目很快,查找长列表中的行很慢.

longlines = set(line.strip_or_whatever() for line in longfile)
for line in shortfile:
    if line not in longlines:
        newfile.write(line)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐