我正在用C#语言编写一种自然语言处理器,该处理器提取句子的情绪(正/负).但是,能够辨别拼写错误的单词的情感是有问题的-如果词典中没有该单词,我既无法对其进行标记也无法对其进行评分!
我知道必须有一种处理方法. Google一直在提供准确的建议,我只需要从类似的算法中获得最重要的建议,然后使用它来访问数据库即可.问题是,我不确定从哪里开始算法名称等等.我需要帮助弄清楚这一点.
我在网站上四处寻找类似的问题,发现了一些有用的概念,但是处理拼写错误和真实单词之间距离的基本方法基本上依赖于击中数据集中的每个单词,这似乎效率极低.对于使算法快速运行的一些想法的帮助也将不胜感激;该分析引擎应该能够每天处理数千个项目.
提前致谢.
解决方法:
这个问题不是那么愚蠢.诺维格(Norvig)为此写了article.一般来说,难度取决于精度.做到这一点的“最简单”方法是使用前缀树或trie以避免探索所有可能性.
基本上你有这样的事情:
沿着这条路,您基本上会走上正轨.一旦您陷入困境,您应该根据所遇到的错误类型检查如何继续进行.
您可以阅读Norvig的文章以进行更深入的分析.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。