协助编写awk脚本版python代码生成计数矩阵

如何解决协助编写awk脚本版python代码生成计数矩阵

我没有发现任何与此类似的问题...

我有这个 python 脚本来从只包含序列的文件生成一个计数矩阵,但它需要永恒运行,但我知道 awk 会做得更快。我不太擅长 awk,但希望有人能够提供帮助。 python脚本如下:

    numFiles = int(sys.argv[1])
    allParams = int(numFiles + 4)
    key_file = sys.argv[2]
    out_file = sys.argv[3]
    #open the output file
    outHandle = open(out_file,'w')
    #Open key file and read one line at a time
    with open(key_file) as kf:
            for eachline in kf:
                    temp_list = [0] * numFiles
                    kSeq = eachline.strip(' \t\n\r')
                    upRange = int(numFiles + 4)

                    for i in range(4,upRange):
                            with open(sys.argv[i]) as f:
                                    for eachline in f:
                                            seq = eachline.strip(' \t\n\r')
                                            if (kSeq == seq):
                                                    curr = int(temp_list[i-4])
                                                    nw = int(curr + 1)
                                                    temp_list[i-4] = nw
                                            else:
                                                    continue

                    outHandle.write(str(kSeq) + "\t")
                    for ind,item in enumerate(temp_list):
                            lastItemIndex = numFiles - 1
                            if(ind == lastItemIndex):
                                    outHandle.write(str(item) + "\n")
                            else:
                                    outHandle.write(str(item) + "\t")

尝试创建一个示例:

输入:一个keyFile,X个其他文件(所有输入文件基本上只是单列中的单词) 输出:包含X个文件中keyFile中单词出现次数的矩阵。

密钥文件

一个
两个
三个
四个
五个

文件 1:

三个
五个
三个
一个
两个
一个
四个
四个
三个

文件 2:

四个
一个
三个
三个
一个
两个
三个
两个
一个

输出

file1 file2
一个 2 3
两个 1 2
三个 3 3
四个 2 1
五个 1 0

文件数量最多可达 4 个

我希望这个插图更清晰。

谢谢

解决方法

所以,经过广泛的阅读和尝试,我得到了我想要使用代码实现的目标

awk 'fname != FILENAME { fname = FILENAME; idx++ } idx == 1 {key[$0] = $0 } idx == 2 {if($1 == key[$1]){ f1[$1] += 1 }} idx == 3 {if($1 == key[$1]){ f2[$1] += 1 }} END {for(seq in key) print seq "\t" f1[seq] "\t" f2[seq] }' keyFile file1 file2

感谢大家的投入。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?