微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

文档的顺序会影响Gensim短语模型的结果吗?

如何解决文档的顺序会影响Gensim短语模型的结果吗?

我刚刚用不同的顺序测试了相同的文档集,令人惊讶的是,我发现文档中的ngrams略有不同。这是对还是错?我试图找出其他因素,但没有发现文档中除了顺序之外的任何差异。

所以,我猜测 Gensim 的短语模型是一个概率模型(即马尔可夫模型),并且它受到文档顺序的影响,因为它根据文档中的单词更新概率。

我说得对吗?还是有其他什么原因造成这种差异?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。