如何解决不平衡数据集的标记化
我正在处理我想用 doc2vec 转换的电子邮件内容数据集。这是一个带标签的数据集(垃圾邮件/非垃圾邮件)并且它是不平衡的(90-10 的比率)。 我的问题是:在标记电子邮件的内容时,我应该先过采样(使用 SMOTE),还是可以按原样使用数据集?
解决方法
两种都试一下,选择哪个效果更好。
(另外:避免使用已知标签作为 Doc2Vec
中的文档标识符,因为在实践中将数据集变成两个巨大的文档——对于训练任何有用维度的文档向量来说太少了——而不是一个有趣/有用的高维文档向量集所需的许多不同的文档。)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。