如何解决max_features 在 CountVectorizer 中有什么作用,CountVectorizer 是如何工作的?
-
我想知道术语 max_features 在 CountVectorizer 中的作用。我试图找到一些例子,但没有例子。
-
CountVectorizer 是如何工作的。现在我不明白 preprocessed_reviews1 是一个列表,所以 preprocessed_review1[0] 给出了 可用产品 victor traps unreal course total fly genocide 附近很臭的输出。但是当我尝试 count_vect.get_feature_names()[0] 时,输出是 能力。在我看来,输出应该是产品。为什么会有这样的变化。
此代码归功于 AAIC。
preprocessed_reviews1 = []
for sentance1 in tqdm(final["Summary"].values):
sentance1 = re.sub(r"http\S+","",sentance1)
sentance1 = BeautifulSoup(sentance1,"lxml").get_text()
sentance1 = decontracted(sentance1)
sentance1 = re.sub(r"\S*\d\S*"," ",sentance1)
sentance1 = re.sub('[A-Za-z]+',' ',sentance1)
sentance1 = ''.join(e1.lower() for e1 in sentance1.split() if e1.lower() not in stopwords)
preprocessed_reviews1.append(sentance1.strip)
count_vect = CountVectorizer(ngram_range=(1,2),min_df=10,max_features=5000)
final_bigram_counts = count_vect.fit_transform(preprocessed_reviews)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。