微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

有没有简单的方法可以将文本文件分块为大括号平衡的部分?

如何解决有没有简单的方法可以将文本文件分块为大括号平衡的部分?

为什么RecDescent需要这么长时间?是因为您的语法很复杂吗?如果是这样,您可以使用Parse :: RecDescent进行两次双级传递。这个想法是,您将定义一个简单的语法来解析单元格… {…},然后将第一个解析器的解析输出传递给具有更复杂语法的对Parse :: RecDescent的调用。这是在猜测RecDescent数据运行缓慢的原因。

另一种选择是编写自己的简单解析器,该解析器与单元格条目匹配,计算到目前为止所看到的大括号数量,然后在结束括号计数等于开始括号计数时找到匹配的括号。那应该很快,但是上面的建议可能更快地实现并且更容易维护。

编辑:您绝对应该尝试使用简化的语法来解析Parse :: RecDescent。递归下降解析的算法复杂度与可能的解析树的数量成正比,应该类似于B ^ N,其中B是语法中分支点的数量,而N是节点的数量

如果您想尝试滚动自己的简单解析器以进行输入的第一次传递,则以下代码可以帮助您入门。

#!/usr/bin/perl -w

use strict;

my $input_file = "input";
open FILE, "<$input_file" or die $!;

my $in_block = 0;
my $current_block = '';
my $open_bracket_count = 0;
while( my $line = <FILE> ) {
    if ( $line =~ /cell/ ) {
        $in_block = 1;
    }

    if ( $in_block ) {
        while ( $line =~ /([\{\}]{1})/g ) {
            my $token = $1;
            if ( $token eq '{' ) {
                $open_bracket_count++;
            } elsif ( $token eq '}' ) {
                $open_bracket_count--;
            }
        }

        $current_block .= $line;
    }

    if ( $open_bracket_count == 0 && $current_block ne '' ) {
        print '-' x 80, "\n";
        print $current_block, "\n";
        $in_block = 0;
        $current_block = '';
    }
}
close FILE or die $!;

编辑:更改代码,以避免将整个文件拖入内存。尽管对于8MB的文件来说这是微不足道的,但仅逐行读取文件更干净。

解决方法

我正在尝试使用Perl和Parse ::
RecDescent从文件中解析出一些数据。我无法将完整的数据文件丢到perl脚本上,因为RecDescent将花费数天时间研究它。因此,我将巨大的数据文件拆分为RD大小的块,以减少运行时间。

但是,我需要在平衡的括号内提取节,并且我现在使用的例程并不健壮(它很大程度上取决于换行符中最后一个括号的位置)。例:

cell ( identifier ) {
  keyword2 { };
  ...
  keyword3 { keyword4 {  } };
}

...more sections...

我需要掌握所有内容cell ... {,包括匹配的结尾},结尾可以有不同数量的间距和小节。

必须有一些Linux命令行来轻松做到这一点?有任何想法吗?

编辑:输入文件约为8M,语法约为60条规则。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。