微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

词级文本分类

如何解决词级文本分类

我目前正在开展一个项目,在该项目中我有评论,并且评论的某些词被标记(例如不同的情绪和类别,这意味着没有情绪)。 目标是对测试评论的每个单词进行分类。我已经用 Naive Baise 试过了,但它不是很有帮助,因为如果我必须标记文档,我会有更多的词和它们的概率。当我只想标记一个词时,我就有问题了。标签 x 是单词本身的概率。所以信息不多。

我也尝试将单词转换为向量,但例如 TF-IDF 也是基于文档的,不适合单个单词。

我的一个想法是,也许我可以为每个单词制作 XY 坐标,这样我就可以使用它们(连同相关的标签)来训练 SVM。但不幸的是,经过研究,我找不到任何方法。也许整个单词的数量表示为数字 (0-x)y-value 每个单词在所有文本中的频率。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。