如何解决预测新的 vectorized_tf-idf 数据时维度不匹配
我已经训练了四个模型(逻辑回归、朴素贝叶斯、随机森林和 SVM)来对约 13k 文本数据元素进行二元预测。对于上下文,每个元素都是一个零件的短语或描述,标记为它是否是汽车。分割、矢量化和 TF-IDF 训练数据的形状为 (12,918,16,230)。
我现在想预测新数据。我有一个包含 173 个短语的小数据集。执行向量化和 TF-IDF 后,新矩阵成形为 (173,492)。
y = df_app['Stripped Lib']
count_vect = CountVectorizer(ngram_range=(1,2))
y_count = count_vect.fit_transfor(y)
y_tfidf = tfidf_transformer(y_count)
# Predict Naive Bayes
nb_pred = mnb.predict(y_tfidf)
这会导致“ValueError:维度不匹配”。当然其他型号也一样。如何解决此矩阵不匹配以预测新数据?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。