ML 分类：使用 tfidf-vectorizer 后如何继续？

如何解决ML 分类：使用 tfidf-vectorizer 后如何继续？

我从事一个关于使用 ML 分类算法进行恶意软件分析的项目。这是我已有的代码。

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'This is a Malware File','This is also a Malware File','This file is benign','Another benign file here',]

vectorizer = TfidfVectorizer(ngram_range=(2,2))
X = vectorizer.fit_transform(corpus).todense()

pd.DataFrame(X,columns=vectorizer.get_feature_names())

你可以忽略语料库中的内容，这只是一个例子。我当前的代码从语料库中的所有内容中提取 n-gram（在本例中为 2-gram），并提供一个表格，其中包含所有文档（语料库中的内容）的所有 n-gram 的 tfidf 值。

现在我想使用分类算法作为 NB、SVM 或 DT 来做一些分类。我不知道我接下来要做什么。我知道我必须为语料库中的每个“文档”添加恶意软件或良性标签，并且我必须将我的数据分成训练和测试数据。如果有人能帮助我如何继续，我将不胜感激。