如何解决k最近邻分类器,但使用分布?
| 我正在为一些2D数据构建分类器。 我有一些训练数据,我知道这些训练的课程,并在图表上绘制了这些数据以查看聚类。 对于观察者来说,有明显的,单独的簇,但是不幸的是它们分散在直线上而不是紧密的簇中。一条线扩展线以大约80度角上升,另一条线扩展线与水平线成大约10度角,但所有三个线点似乎都指向原点。 我想对某些测试数据执行最近邻分类,从外观上看,如果测试数据与训练数据非常相似,则三邻域分类器可以很好地工作,除非数据接近图的原点,在这种情况下,三个群集非常靠近,可能会出现一些错误。 我应该为我的聚类得出一些估计的高斯分布吗?如果是这样,我不确定如何将其与最近的邻居分类器结合使用? 感谢您的任何投入。 干杯解决方法
在运行最近邻居之前,将所有点都转换为[r,angle],并将r缩小至0到90的范围。
为什么呢NN使用点与中心之间的欧几里得距离(在大多数实现中),
但是你想要
distance( point,centre )
更像
sqrt((point.r-center.r)^ 2 +(point.angle-center.angle)^ 2)
比sqrt((point.x-centre.x)^ 2 +(point.y-centre.y)^ 2)。
将比例缩小到30? 10?重量角将大于r,这似乎是您想要的。,为什么要使用k-NN?任何线性分类器都可以解决问题。尝试使用SVM解决它,您将获得更好的结果。
如果您坚持使用kNN,则显然必须缩放功能并将其转换为极性功能,如此处所述。版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。