如何解决逐行分析文本文件,跳过某些行
|| 我有一个看起来像这样的文件(但更大):>some text
ABC
DEF
GHI
>some more text
JKL
MNO
PQR
我已经在Java中使用它一段时间了,并且能够使用行等构建数组。带有\'> \'的行通常是一行,但有时可能是2、3或更多行。不以\'> \'开头的行的字符长度相同,但其中可能有10、20或30或更多行。现在,我要创建一个字符串数组,该数组中的每个字符串都包含一个不以\'> \'开头的行的字符串,如下所示:
array element 1 = ABCDEFGHI
array element 2 = JKLMONPQR
我感觉自己已经接近了,但需要踢个小脚才能使我前进。我确信这对于专业人士来说很容易,但是我还是Java的新手。
具体问题与我在此板上发布的其他帖子有关。这是一个FASTA文件:
>3BHS_BOVIN (P14893) 3 beta-hydroxysteroid
AGWSCLVTGGGGFLGQRIICLLVEEKDLQEIRVLDKVFRPEVREEFSKLQSKIKLTLLEG
DILDEQCLKGACQGTSVVIHTASVIDVRNAVPRETIMNVNVKGTQLLLEACVQASVPVFI
>41_BOVIN (Q9N179) Protein 4.1
MHCKVSLLDDTVYECVVEKHAKGQDLLKRVCEHLNLLEEDYFGLAIWDNATSKTWLDSAK
EIKKQVRGVPWNFTFNVKFYPPDPAQLTEDITRYYLCLQLRQDIVSGRLPCSFATLALLG
SYTIQSELGDYDPELHGADYVSDFKLAPNQTKELEEKVMELHKSYRSMTPAQADLEFLEN
>5NTD_BOVIN (Q05927) 5\'-nucleotidase
MNPGAARTPALRILPLGALLWPAARPWELTILHTNDVHSRLEQTSEDSSKCVNASRCVGG
VARLATKVHQIRRAEPHVLLLDAGDQYQGTIWFTVYKGTEVAHFMNALGYESMALGNHEF
DNGVEGLIDPLLKEVNFPILSANIKAKGPLASKISGLYSPYKILTVGDEVVGIVGYTSKE
TPFLSNPGTNLVFEDEITALQPEVDKLKTLNVNKIIALGHSGFEVDKLIAQKVKGVDVVV
我最终需要在它们自己的数组元素中的序列,以便以后可以对其进行操作。
解决方法
假设您可以遍历各行:
List<String> array = new ArrayList<String>();
StringBuilder buf = new StringBuilder();
for (String line : lines) {
if (line.startsWith(\">\")) {
if (buf.length() > 0) {
array.add(buf.toString());
buf.setLength(0);
}
} else {
buf.append(line);
}
}
if (buf.length() > 0) { // Add the final text element(s).
array.add(buf.toString());
}
, 尝试这个。我没有理会适当的变量名。假设第一行带有>,它也可以工作。它可能也没有进行优化,但是应该让您知道如何实现。
import java.io.BufferedReader;
import java.io.IOException;
import java.io.StringReader;
import java.util.ArrayList;
public class Parse {
public static void main(String[] args) throws IOException {
String lala = \">some text\\r\\n\" +
\"ABC\\r\\n\" +
\"DEF\\r\\n\" +
\"GHI\\r\\n\" +
\">some more text\\r\\n\" +
\"JKL\\r\\n\" +
\"MNO\\r\\n\" +
\"PQR\";
ArrayList<String> lines = new ArrayList<String>();
BufferedReader in = new BufferedReader( new StringReader( lala ) );
String line;
while( ( line = in.readLine() ) != null ) {
lines.add( line );
}
ArrayList<String> parsed = new ArrayList<String>();
for( String s : lines ) {
if( s.contains(\">\") ) {
parsed.add(\"\");
} else {
String current = parsed.get( parsed.size() - 1 );
parsed.set( parsed.size() - 1,current + s );
}
}
for( String s : parsed ) {
System.out.println( s );
}
}
}
以上将输出:
ABCDEFGHI
JKLMNOPQR
另一个有趣的方法是在\'in.readLine()\'循环中,您可以检查>,如果存在,则在该字符串的末尾添加一个<,然后将其压入\'lines \'。然后,您可以使用正则表达式将其他行撤回。
, 像这样吗
Array<String> lines
//Open the file for reading
try {
BufferedReader br = new BufferedReader(new FileReader(<FileNameGoesHere>));
while ((thisLine = br.readLine()) != null) { // while loop begins here
if(thisLine.charAt(0) != \'>\') {
lines.add(thisLine);
}
} // end while
} // end try
catch (IOException e) {
System.err.println(\"Error: \" + e);
}
, 跳过以“ 7”开头的行很容易;
while((line=istream.readLine())!=null){
if(line.charAt(0)==\'>\')continue;
//do normal concat to buffers
}
如果您想转到以ѭ7starting开始的行中的下一个缓冲区,则需要更多的时间
while((line=istream.readLine())!=null){
if(line.charAt(0)==\'>\'){
//create new buffer and append the current one to the list (check first if current one is not empty)
continue;
}
//do normal concat to buffer
}
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。