如何解决结合功能进行文本分类
我正在尝试使用RandomForestClassifier
进行文本分类。
我能够用BOW表示法做到这一点。现在,我想结合多个功能,例如POS标签信息,文档长度和大写字母的出现。
我的问题是现在如何在变换后的特征向量中组合这些特征。
这是我用于BOW模型并添加tfidf-weights的代码:
#features = BOW
#convert text to numbers
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=1500,min_df=5,max_df=0.3,stop_words=stopwords.words('german'))
X = vectorizer.fit_transform(documents).toarray()
#calculate the tfidf
from sklearn.feature_extraction.text import TfidfTransformer
tfidfconverter = TfidfTransformer()
X = tfidfconverter.fit_transform(X).toarray()
编辑:经过更多研究,我从sklearn找到了DictVectorizer
。现在的问题是,我是否可以将不同类型的多个功能(一些代表计数,一些布尔值/ 0或1)组合成一个字典。例如,我的数据可能如下所示:
data = [
{"word1_count" = 1,"word2_count"= 0,"post_length" = 35,"emoji1" = 0},"adv_pos_count" = 4},{"word1_count" = 3,"word2_count"= 1,"post_length" = 80,"emoji1" = 1},"adv_pos_count" = 2}
]
非常感谢您的帮助
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。