如何解决带有Penn Treebank标签的NLP POS注释工具
|| 关闭。这个问题是题外话。它当前不接受答案。解决方法
您可能想要研究小子或webanno。这些都是基于范围的注释器,而不是基于令牌的注释器,但是如果它们配置正确,您应该能够双击单词,然后从列表中选择标签。
brat有一个依赖项和标记示例配置,这可能是一个不错的起点,尽管您可能想从Stanford CoreNLP配置的visual.conf中借用部分,其中包括Penn Treebank标签的一些颜色。我对webanno的配置不太熟悉,但是由于它基于小子,所以大概可以用相同的方式对其进行自定义。
, 您有很多选择。这是我按照最简单/最不复杂到最复杂的顺序的想法:
1)CPAN上的任何模块,尤其是Lingua :: EN :: Tagger。
不确定它的准确性如何,但是它非常容易实现,但是您必须喜欢Perl。
2)几乎一样简单的NLTK(Python自然语言工具包)。安装整个软件包需要一段时间,但是编写代码很容易。 NLTK具有非常强大的文档和示例。这是pos标记:
http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html
3)就个人而言,我倾向于大量使用stanford解析器,并且内置了一个不错的pos标签。 \'):
https://sites.google.com/site/nicoflacco/
您将不得不对代码进行一些自定义,以仅执行标记化/标记而不进行解析,但这并不难。
4)Lingpipe有点重。我相信它们包含了斯坦福解析器,但我可能是错的。
按照您的说法,如果您想使用斯坦福解析器而不只是pos标记器,那么(3)可能还不错。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。