如何解决python的TfidfVectorizer使用什么tf-idf公式
我有以下实现:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
vectorizer = TfidfVectorizer(
lowercase = True,stop_words = 'english')
X = vectorizer.fit_transform([corpus])
df = pd.DataFrame(X.toarray(),columns=vectorizer.get_feature_names())
df = df.sort_values(by=0,axis=1,ascending=False)
df = df.iloc[:,0:100]
top_n = df.to_dict(orient='list')
for item in top_n:
top_n[item] = round(top_n[item][0],2)
输入以下文本会产生以下结果:
我叫AAA,你是我儿子
{'my': 0.63,'are': 0.32,'is': 0.32,'AAA': 0.32,'name': 0.32,'son': 0.32,'you': 0.32}
我不确定使用什么公式来计算这个排名。单词 my 的词频为 2/8。由于只有一个文档,因此 idf 部分不应有任何影响。那么0.63是如何计算的?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。