根据每个分数对来自预测池的样本进行排名

如何解决根据每个分数对来自预测池的样本进行排名

我有一个从 s1s100 的样本池,我想在两个不同的类别 AB 之间进行分类

在这个问题中,我不能对每个样本单独进行预测,而是以 10 个为一组进行预测,每个预测都会返回预测标签和每个标签的置信度。类似的东西:

[s1,s21,s3,s15,s5,s62,s90,s13,s9,s100];A;0.9
[s1,s12,s20,s53,s89,s27,s42,s76,s55];A;0.4
...

每个预测向量都是随机设置的,我可以根据需要执行尽可能多的组合。此外,样本可以在一个池中重复多次。

我想要完成的是使用 confidence 标签对每个 sample 预测的每个 category 重要性进行排名

搜索类似的问题,我最终认为计算 shaply values 将是一个很好的解决方案,但这些被认为是为特征而不是样本实现的。

任何想法如何实施?

编辑:

按照建议,我将尝试添加一个最小的问题示例,每组 4 个样本和 2 个样本。类似的东西:

Sample_group;Prediction;Confidence
[s1,s2];A;0.7
[s3,s4];A;0.6
[s1,s3];A;0.9
[s2,s4];A;0.5
[s1,s4];A;0.7
[s2,s3];A;0.6

尽管所有对都给出相同的预测,但查看 confidence 值显示 [s1,s3] 对的值最高,而 [s2,s4] 的值最低。检查其余的对可以推断出 s1 值似乎是与其他两个配对时与 s3 相比给出最高置信度的值。结果应该是这样的:

Sample;rank
s1;0
s3;1
s2;2
s4;3

解决方法

  1. 第一种方法:

您可以尝试重新定义您的问题:您实际上有一个模型,该模型采用 100 个特征向量并返回一个预测。每个单独的特征都是布尔值(如果样本 i 是包含的 10 个样本之一,则特征 i 是 1,而 0 不是;当然,这个框架可以支持任何样本的混合,而不仅仅是 10 组)。

您的预测有两个组成部分的事实可以通过将其替换为单个值来处理,即预测 A 和 B 的置信度乘以 1 或 -1,因此您的预测在 [ -1 1](其中 -1 以最高置信度预测 A,1 以最高置信度预测 B,以此类推)。这只是一个建议,还有其他方法可以将 2D 输出减少到 1D,但这种方法似乎最简单。

现在您基本上有一个简单的回归模型,它采用 100 个特征并返回一个数字,您可以计算每个特征的 SHAP 值(在您的情况下,这将转化为“样本重要性”——即用于预测的样本)。至于如何计算 SHAP 值,我认为如果您实际上使用 .predict 方法实现了一个包含您的预测的类,则可以使用 SHAP 的 KernelExplainer。您的下一个问题是 KernelExplainer 为每个特征提供用于特定预测的 shap 值(并运行 .predict 100K 次以这样做,以便您的方法更快)。因此,您可能需要针对不同的样本组多次执行此操作并平均结果。

  1. 第二种方法:

另一种可能需要更多工作才能实现但更直接的解决方案是实现您自己的 Shapley 计算版本。 Shapley 值的原始博弈论公式实际上似乎更符合您的问题,而不是它在机器学习中的采用。也就是说,如果您将每个样本视为“贡献者”并将最终输出(如上所述减少为单个数字)视为“结果”,那么 Shapley 公式正是用于估计每个贡献者的贡献存在,跨越存在的其他贡献者的所有其他排列。

在一般情况下,如果您有 N 个贡献者,则存在 2^N 种组合,但在您的情况下,您可以说只有 100 个样本中存在 10 个样本的组合才是合法的。因此,您可以采用 Shapley 公式,而不是查看所有可能的组合,只需查看合法的组合即可。有 100 个选择 10,这仍然是一个巨大的数字(万亿),因此您可能需要从中随机抽样以获得合理的运行时间。据我了解该公式背后的想法,它将为您提供您所需要的。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-
参考1 参考2 解决方案 # 点击安装源 协议选择 http:// 路径填写 mirrors.aliyun.com/centos/8.3.2011/BaseOS/x86_64/os URL类型 软件库URL 其他路径 # 版本 7 mirrors.aliyun.com/centos/7/os/x86
报错1 [root@slave1 data_mocker]# kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topic_db [2023-12-19 18:31:12,770] WARN [Consumer clie
错误1 # 重写数据 hive (edu)> insert overwrite table dwd_trade_cart_add_inc > select data.id, > data.user_id, > data.course_id, > date_format(
错误1 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1
报错1:执行到如下就不执行了,没有显示Successfully registered new MBean. [root@slave1 bin]# /usr/local/software/flume-1.9.0/bin/flume-ng agent -n a1 -c /usr/local/softwa
虚拟及没有启动任何服务器查看jps会显示jps,如果没有显示任何东西 [root@slave2 ~]# jps 9647 Jps 解决方案 # 进入/tmp查看 [root@slave1 dfs]# cd /tmp [root@slave1 tmp]# ll 总用量 48 drwxr-xr-x. 2
报错1 hive> show databases; OK Failed with exception java.io.IOException:java.lang.RuntimeException: Error in configuring object Time taken: 0.474 se
报错1 [root@localhost ~]# vim -bash: vim: 未找到命令 安装vim yum -y install vim* # 查看是否安装成功 [root@hadoop01 hadoop]# rpm -qa |grep vim vim-X11-7.4.629-8.el7_9.x
修改hadoop配置 vi /usr/local/software/hadoop-2.9.2/etc/hadoop/yarn-site.xml # 添加如下 <configuration> <property> <name>yarn.nodemanager.res