微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

将误报的成本设置为比LightGBM中的误报的成本高得多

如何解决将误报的成本设置为比LightGBM中的误报的成本高得多

我面临的情况是,误报比误报要昂贵得多。

想象一下一个模型的情况,该模型用于决定您是否将立即进行非常痛苦和危险的手术,或者您宁愿探索其他可能性,包括咨询更多的医学博士和尝试替代疗法。

虽然如果绝对必要的话您不会反对进行危险而痛苦的手术,但是如果模型建议您在没有非常严重的理由的情况下进行手术,您会很生气。毕竟,您可以在对特定病例进行更彻底的医学检查后,一个月后再进行手术。

因此,在这种情况下,至少对您来说,误报的成本要比误报的成本高得多。

所以我想以某种方式告知模型FP比FN差很多。

我对Stack Overflow进行了一些研究,他们提出了两种解决方案:

  1. 在将概率转换为类时要使用阈值(这不会影响训练)
  2. 增加否定类的权重(这会影响训练和决策边界的形状)。

假设是,通过增加否定类的权重,您可以避免模型在涉及否定示例时犯错,即将其错误分类为肯定。

相反,该模型将不太愿意在正面示例将错误分类为负面的方面犯错。

但是当肯定类别只占整体数据的一小部分时-例如3%-否定类别的这种过度采样很可能导致分类器始终选择否定类别,这是Catch22的一种情况。

您有什么建议?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。