微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

使用Visual C#从文本文件语料库中提取名词,名词短语,形容词动词

我正在做一个项目,其中我必须从文本文件(.doc)格式中提取名词形容词名词短语和动词.
我有大约75个这样的文件的语料库.我已经访问了网上找到有关它的信息,我使用nltk在python中遇到了POS标签.
因为我的项目在c#中(使用Visual Studio 2008),所以我需要一个代码来实现.
我已经尝试过使用wordnet api进行相同甚至是Sharpnlp的尝试,但是由于我是新手,所以我发现这些很难与我的项目集成.
有人可以建议我使用一些简单的代码(例如词汇表等)来做到这一点吗?plz帮助我.
谢谢.

解决方法:

我曾在NLP(自然语言处理)中担任行业领导者一段时间,而您要做的并不是一件小事.我认识nltk的创建者之一,我自己使用过它.这是一个高质量的开源工具,我建议您使用它(使用C#是否有特别令人信服的理由?)

POS标记通常是通过在手工注释的数据上训练语言模型,然后将该模型应用于新文本,预测语音部分并给人信心来实现的. nltk具有执行此操作的工具,并且还具有一些模型(如果我没记错的话).

您会发现大多数工具都是用C,JavaPython编写的.如果您不懂任何一种语言,则可以将其作为学习某些内容的绝佳机会!

有关更多信息和其他可用于此类标记的软件,请参见Wikipedia,尤其是底部链接.

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐