微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

结合功能进行文本分类

如何解决结合功能进行文本分类

我正在尝试使用RandomForestClassifier进行文本分类。 我能够用BOW表示法做到这一点。现在,我想结合多个功能,例如POS标签信息,文档长度和大写字母的出现。 我的问题是现在如何在变换后的特征向量中组合这些特征。 这是我用于BOW模型并添加tfidf-weights的代码

    #features = BOW
    #convert text to numbers
    from sklearn.feature_extraction.text import CountVectorizer
    vectorizer = CountVectorizer(max_features=1500,min_df=5,max_df=0.3,stop_words=stopwords.words('german'))
    X = vectorizer.fit_transform(documents).toarray()

    #calculate the tfidf
    from sklearn.feature_extraction.text import TfidfTransformer
    tfidfconverter = TfidfTransformer()
    X = tfidfconverter.fit_transform(X).toarray()

现在在哪里以及如何添加其他功能?谢谢您的帮助!

编辑:经过更多研究,我从sklearn找到了DictVectorizer。现在的问题是,我是否可以将不同类型的多个功能(一些代表计数,一些布尔值/ 0或1)组合成一个字典。例如,我的数据可能如下所示:

data = [
{"word1_count" = 1,"word2_count"= 0,"post_length" = 35,"emoji1" = 0},"adv_pos_count" = 4},{"word1_count" = 3,"word2_count"= 1,"post_length" = 80,"emoji1" = 1},"adv_pos_count" = 2}
]

然后在哪里添加标签

非常感谢您的帮助

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。