词级文本分类 - 编程之家

如何解决词级文本分类

我目前正在开展一个项目，在该项目中我有评论，并且评论的某些词被标记（例如不同的情绪和类别，这意味着没有情绪）。目标是对测试评论的每个单词进行分类。我已经用 Naive Baise 试过了，但它不是很有帮助，因为如果我必须标记文档，我会有更多的词和它们的概率。当我只想标记一个词时，我就有问题了。标签 x 是单词本身的概率。所以信息不多。

我也尝试将单词转换为向量，但例如 TF-IDF 也是基于文档的，不适合单个单词。

我的一个想法是，也许我可以为每个单词制作 X 和 Y 坐标，这样我就可以使用它们（连同相关的标签）来训练 SVM。但不幸的是，经过研究，我找不到任何方法。也许整个单词的数量表示为数字 (0-x) 和 y-value 每个单词在所有文本中的频率。