如何解决如何使用 Apache PySpark 中 roc_curve 生成的阈值计算精确召回率
我有一个在 Pyspark 中构建的随机森林分类模型。我对测试数据执行了变换函数并得到了输出数据集,即 result_df,它有 4 个附加列,即特征、原始预测、概率、预测。现在,我正在调用 sklearn roc_curve api,它将标签和概率列作为输入并提供阈值作为输出。那么,如何在 result_df 的概率列上使用这个阈值来生成一个新列,然后如何计算精度和召回率?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。