如何解决agrep 模糊搜索 - 结果数量没有意义
大家好!
我正在使用 agrep
在大型 DNA 文本文件中搜索具有 2 个允许不匹配的字符串,该文件只有来自先前 agrep 搜索的具有相同设置的行。所以每一行都应该包含一个匹配项!我假设 agrep
每行搜索一次...
问题:
wc -l temp_R1_GCTCTTCCGATCT_M2.txt
-> 9583 行
agrep -2 -c 'GCTCTTCCGATCT' temp_R1_GCTCTTCCGATCT_M2.txt
-> 9570。
agrep -2 'GCTCTTCCGATCT' temp_R1_GCTCTTCCGATCT_M2.txt | wc -l
-> 9566。
-d '$'
应该是标准的 -.-agrep -2 -c -d '$' 'GCTCTTCCGATCT' temp_R1_GCTCTTCCGATCT_M2.txt
-> 9580
更奇怪的是:agrep -2 -c 'GCTC' temp_R1_GCTCTTCCGATCT_M2.txt
-> 9662(超过所有行?)agrep -2 -d '$' -c 'GCTC' temp_R1_GCTCTTCCGATCT_M2.txt
-> 9609
数据:Googledrive: .txt file ZIP-file
来自man agrep
的一个可能的答案:
以下可能导致无限循环: agrep 模式 * > output_file。如果匹配的数量很多,它们可能会存放在 output_file 中 在它被完全读取之前导致 output_file 中模式的更多匹配(匹配针对整个目录)。不是 明确这是否是一个“错误”(grep 也会这样做),但要注意。
我用不同的文件对此进行了测试。有时它确实有效,但在大多数情况下,我无法理解这是如何发生的。 -d '$'
很烦人。
最后我将使用不同的方法进行模糊搜索,但这并不能让我入睡。到底是怎么回事?我可以信任agrep
吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。