我使用以下好的awk命令来过滤重复的行
例:
cat LogFile | awk '!seen[$0]++'
问题是,在某些情况下,我们需要过滤重复的行,尽管有些字段不同,但它们并不那么重要
例如
日志文件:
[INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08
[INFO],[02/Jun/2014-19:31:25],EXE,ds1a,INHT VERION , 1.4.4.3-08
[INFO],[02/Jun/2014-19:32:40],EXE,ds1a,INHT VERION , 1.4.4.3-08
请看一下这个文件 – LogFile
我需要从第三个分隔符“,”中删除重复的行,直到该行的结尾,
而且无论在第三个分隔符之前是什么
所以最后我应该得到这个过滤文件:(应该总是得到列表中的第一个)
[INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08
所以请帮我完成我的任务
如何从第三个分隔符“,”过滤LofFile,并忽略字段:[INFO],[………..],EXE,
备注 – 植入也可以使用perl one liner line
解决方法:
使用GNU awk for gensub():
$awk '!seen[gensub(/([^,]*,){3}/,"","")]++' file
[INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08
任何支持RE间隔的awk(大多数现代awks):
$awk '{key=$0; sub(/([^,]*,){3}/,"",key)} !seen[key]++' file
[INFO],[02/Jun/2014-19:30:45],EXE,ds1a,INHT VERION , 1.4.4.3-08
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。