微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

自然语言处理 |用于二元组的 LimeTextExplainer

如何解决自然语言处理 |用于二元组的 LimeTextExplainer

在我的 NLP 任务中,我想了解分类器的“规则”。为此,我构建了一个 LimeTExtExplainer。

c= make_pipeline(cv,naive_bayes)
explainer = LimeTextExplainer(class_names=class_names,random_state=42,bow=False)
exp = explainer.explain_instance(X_test[i],c.predict_proba,num_features=20,) 
fig = exp.as_pyplot_figure()

上面的代码创建了一个很好的 1grams 列表,完全符合我的要求。 :

enter image description here

下一步我想做同样的事情,但使用二元组。我将特征提取器更改为仅计算二元组

cv = CountVectorizer(strip_accents='ascii',analyzer='word',token_pattern=u'(?ui)\\b\\w*[a-z]+\\w*\\b',lowercase=True,stop_words='english',ngram_range=(2,2),max_features=None)

问题:

  1. 我对 Limeexplainer 使用了与上面相同的代码。但现在,该 图表和以前一样只显示 1grams,但我只计算了 bigrams。
  2. 作为一个附带问题,图表的横轴显示 词占分类的绝对概率 可能性?例如,文本类 X 的概率为 0.67, 在 0.67 中,recognit 占 ~ 0.009,langugage 占 ~ 0.007, 对吗?

提前致谢!

解决方法

至少我得到了第二个问题的答案:

这些都是概率,但不是我想的那样。

例如,X 类的预测概率为 0.808。如果现在从底层语料库中删除“recognit”这个词,则预测类别的总预测概率将缩小 0.008。--> 那么概率类别 x 等于 0.800。

有关 LIME 的详细信息,我强烈推荐: “我为什么要相信你?”解释任何分类器的预测,Riberio 等人 (2016)

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。