微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

python-识别文本中的多个类别和相关的情感

如果您有一个文本语料库,如何识别所有类别(从预定义类别列表中)和相关的情感(正面/负面写作)?

我将在Python中进行此操作,但在此阶段,我不一定要寻找特定于语言的解决方案.

让我们看一个例子,尝试阐明我的要求.

如果我对产品有完整的评论集,例如:

Microsoft’s XBox One offers impressive graphics and a solid list of exclusive 2015 titles. The Microsoft console currently edges ahead of the PS4 with a better selection of media apps. The console’s fall-2015 dashboard update is a noticeable improvement. The console has backward compatibility with around 100 XBox 360 titles, and that list is poised to grow. The XBox One’s new interface is still more convoluted than the PS4’s. In general, the PS4 delivers slightly better installation times, graphics and performance on cross-platform games. The XBox One also lags behind the PS4 in its selection of indie games. The Kinect’s legacy is still a blemish. While the PS4 remains our overall preferred choice in the game console race, the XBox One’s significant course corrections and solid exclusives make it a compelling alternative.

我有一个预定义类别的列表,例如:

>图形
>游戏玩法
>游戏选择
>应用
>表现
>不相关/其他

我可以接受大量的评论,然后按句子将其分解.对于我的训练数据中的每个句子,我都可以为其手工标记适当的类别.问题在于1个句子中可能有各种类别.

如果每个句子只有1个类别,那么scikit-learn的任何分类算法都可以解决问题.当使用多类时,我可以使用多标签分类之类的方法.

增加情绪是比较棘手的部分.识别句子中的情感是一项相当简单的任务,但是如果不同标签上的情感混合在一起会变得不同.

例句为“ XBox One拥有不错的游戏选择,但性能比PS4差”.我们可以确定两个预定义的类别(游戏选择,性能),但是我们对游戏选择抱有积极的态度,而对表现则抱有消极的想法.

用什么方法识别文本中的所有类别(来自我们的预定义列表)及其相关情感?

解决方法:

一种简单的方法是使用解析器将训练集分解为最少的句子,然后将其用作标签和情感分类的输入.

您的例句:

The XBox One has a good selection of games but the performance is worse than the PS4

使用Stanford Parser,获取没有子S标签的S标签(因此是最少的句子),然后将标记放在一起.对于上面的句子,这些内容将为您提供:

The XBox One has a good selection of games
the performance is worse than the PS4

大多数情况下,S标签内的情绪应保持一致.如果像XBox这样的句子具有良好的游戏性,并且可怕的图形在您的数据集中很常见,则可能需要将其分解为NP标签,但这似乎不太可能.

关于标签,正如您提到的,任何多标签分类方法都可以使用.

对于更复杂的方法,有很多关于加入主题情感模型的研究-搜索主题情感模型”会产生大量论文和代码.这是一份介绍Hidden Topic Sentiment Model的论文的样本训练数据,该论文看起来像您的巷子.注意在带有标签的第一句中有两个主题.

HTSM training data

希望有帮助!

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐