如何解决词级文本分类
我目前正在开展一个项目,在该项目中我有评论,并且评论的某些词被标记(例如不同的情绪和类别,这意味着没有情绪)。
目标是对测试评论的每个单词进行分类。我已经用 Naive Baise
试过了,但它不是很有帮助,因为如果我必须标记文档,我会有更多的词和它们的概率。当我只想标记一个词时,我就有问题了。标签 x
是单词本身的概率。所以信息不多。
我也尝试将单词转换为向量,但例如 TF-IDF
也是基于文档的,不适合单个单词。
我的一个想法是,也许我可以为每个单词制作 X
和 Y
坐标,这样我就可以使用它们(连同相关的标签)来训练 SVM
。但不幸的是,经过研究,我找不到任何方法。也许整个单词的数量表示为数字 (0-x)
和 y-value
每个单词在所有文本中的频率。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。