我的LabeledPoint中有一些不平衡的数据.我想做的是选择所有正面和n次负面(随机).例如,如果我有100个阳性和30000个阴性,我想创建新的LabeledPoint,其中包含所有100个阳性和300个阴性(n = 3).
在实际情况中,我并没有在开始时有多少积极和消极.
解决方法
据推测,您的数据是RDD [LabeledPoint].您可以执行以下操作:
val pos = rdd.filter(_.label==1) val numPos=pos.count() val neg = rdd.filter(_.label==0).takeSample(false,numPos*3) val undersample = pos.union(neg)
您可以找到takeSample,filter和union here的文档.
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。