我有两个文本文件(行数/大小不相等).我想将较短文本文件的每一行与较长文本文件的每一行进行比较.比较一下,如果有任何重复的字符串,我想删除它们.最后,我想将结果写入新的文本文件并打印内容.
是否有一个简单的脚本可以为我做这个?
任何帮助将非常感激.
文本文件不是很大.一个有大约10行,另一个有大约5.我试过的代码(失败的代码)如下:
for line in file2: line1 = line for line in file1: requested3 = file('request2.txt','a') if fnmatch.fnmatch(line1,line): line2 = line.replace(line,"") requested3.write(line2) if not fnmatch.fnmatch(line1,line): requested3.write(line+'\n') requested3.close()
解决方法
with open(longfilename) as longfile,open(shortfilename) as shortfile,open(newfilename,'w') as newfile: newfile.writelines(line for line in shortfile if line not in set(longfile))
就这么简单.这会将行从shortfile复制到newfile,而不必将它们全部保存在内存中,如果它们也存在于longfile中.
如果您使用的是Python 2.6或更早版本,则需要嵌套with语句:
with open(longfilename) as longfile: with open(shortfilename) as shortfile: with open(newfilename,'w') as newfile:
如果您使用的是Python 2.5,则需要:
from __future__ import with_statement
在文件的最顶部,或者只是使用
longfile = open(longfilename)
如果你需要操作这些行,那么显式的for循环很好,重要的部分是set().查找集合中的项目很快,查找长列表中的行很慢.
longlines = set(line.strip_or_whatever() for line in longfile) for line in shortfile: if line not in longlines: newfile.write(line)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。