微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

如何使用 Pycaret 找到最佳阈值

如何解决如何使用 Pycaret 找到最佳阈值

我正在使用 pycaret 库并从中创建了一个 catboost 模型

enter image description here

该模型的 AUC 得分很高,但召回率和 F1 非常糟糕,这意味着 0.5 的正常阈值并不理想,但有一个阈值可以为这两个指标提供良好的分数。

有什么办法可以找到这个阈值吗?我不太确定如何工作,因为我正在尝试 Pycaret

解决方法

您指的是哪个阈值?对于功能选择?您可以尝试多次调整,以便与上图中的基线相比改进模型。

  1. compare_models() - 也许还有其他算法比 catboost 性能更好
  2. 特征选择 - RFE 或随机森林(在这里您可以使用 PyCaret 中的参数 feature_selection 并尝试使用阈值。还应检查 Boruta 算法)。
  3. 特征工程
  4. 折叠=5
  5. 尝试多次拆分训练/测试(80/20、70/30 等)
  6. 在 PyCaret 设置中应该仔细检查数字和分类特征。需要时,需要更改格式。

尝试比较

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。