“ A”，“ B”或“任何”类型的三元分类？

对于任何通用机器学习模型（尽管我目前正在使用神经网络），用于

将集合的元素分为三组（“ A”或“ B”或“ any”），

（此处标记为“ A ”表示仅有效标签为“ A”（类似于“ B ”），并且“ any ”表示标签和“ B”均有效）， 应使用哪种损失函数 strong> ？

这可以使用与更普遍的“三元分类”问题相关的技术来解决，但我认为通过这种概括我会丢失一些信息。

为了举例说明，假设我们要根据动词的时态形式对动词（英语）进行分类（让我们只考虑现在时和过去时）

然后模型应该分类

{“工作”，“吃”，“唱歌”，...}为“ 现在时”

{“ worked”，“ ate”，“ sang”，...}为“ 过去时”

和

{“ read”，“ put”，“ cut”，...}表示为“ any ”

（请注意，“ read”的现在时和过去时的发音不同，但是我们正在考虑基于文本的分类）

这与我正在执行的任务不同，但可能应该作为此特定问题的有效示例。

PS：我是一名学生，只对该领域有基本的了解，因此，如有需要，请要求对此问题进行任何澄清。

我认为您处于多标签分类而不是多分类的情况。

如here所述：

在机器学习中，多标签分类和强多输出分类的相关问题是分类问题，其中每个标签可以分配多个标签实例

这意味着实例可以具有多个与之关联的类。

通常，当您使用二进制分类（例如0、1类）时，您可以将一个神经元作为网络的最后一层，该神经元将使用S形作为激活函数，输出0到1之间的连续值，并且binary cross-entropy

为损失

鉴于您的情况，您可以决定使用：

通过这种方式，每个实例都可以通过模型以特定的概率与两个类别相关联。

这意味着对于每个实例，您应该关联两个类，或者更确切地说是“标签” 。例如，对于动词，您应该具有“过去”，“现在”类：

         present  past
work:    1      0
worked:  0      1
read     1      1

您的模型将尝试输出两个概率，其架构已在前面进行了解释：

         present  past   sum
work:    0.9      0.3    1.2
worked:  0.21     0.8    1.01
read     0.86     0.7    1.5

基本上，您有两个独立的概率（如果检查，则一行的总和不为1），因此可以将两个类都关联到一个实例。

相反，如果要使用两个以上类的互斥分类，则应使用categorical crossentropy作为损失，而在最后一层使用softmax activation function，基本上可以处理输出以生成总计为1的概率向量。示例

         present   past     both   sum
work:    0.7       0.2      0.1    1
worked:  0.21      0.7      0.19   1
read     0.33      0.33     0.33   1

选中here以查看详细的示例