微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

ML 分类:使用 tfidf-vectorizer 后如何继续?

如何解决ML 分类:使用 tfidf-vectorizer 后如何继续?

我从事一个关于使用 ML 分类算法进行恶意软件分析的项目。这是我已有的代码

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'This is a Malware File','This is also a Malware File','This file is benign','Another benign file here',]

vectorizer = TfidfVectorizer(ngram_range=(2,2))
X = vectorizer.fit_transform(corpus).todense()

pd.DataFrame(X,columns=vectorizer.get_feature_names())

你可以忽略语料库中的内容,这只是一个例子。我当前的代码从语料库中的所有内容提取 n-gram(在本例中为 2-gram),并提供一个表格,其中包含所有文档(语料库中的内容)的所有 n-gram 的 tfidf 值。

现在我想使用分类算法作为 NB、SVM 或 DT 来做一些分类。我不知道我接下来要做什么。我知道我必须为语料库中的每个“文档”添加恶意软件或良性标签,并且我必须将我的数据分成训练和测试数据。如果有人能帮助我如何继续,我将不胜感激。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。