如何解决不平衡数据的加权交叉熵损失函数
我正在使用不平衡的时间序列数据集训练网络。根据他们的操作,数据中的某些间隔特别长于其他间隔。
- X 可以是 20 条数据
- Y 可以是 40 秒的数据
- Z 可以是 10 秒的数据
我使用了 SigmoidFocalCrossEntropy,并意识到它降低了分类良好的示例的权重并专注于困难的示例。与分类良好的样本对应的损失值相比,被分类器错误分类的样本的损失值要高得多。但是,我想使用自己的加权交叉熵损失函数。
我正在尝试开发一个损失函数,其中每个窗口对梯度的贡献的权重与训练数据集中相应类的大小成反比。准确地说,表示Li
在i-th
窗口上计算的多类交叉熵损失的分量,加权交叉熵函数L^W
表示为:
其中 C = {X,Y,Z},y 是一个二元指标
如果 c 是与窗口关联的标签,则等于 1
i 和 0 否则,p 是窗口 i
属于给定模型预测的 c 类,并且
应用于损失的第 i 个分量的权重 mi
定义为:
1 if yi,X= 1
mi = |X| / |Y| if yi,Y= 1
|X| / |Z| if yi,Z= 1
我已经使用过这段代码,但不确定如何从这里对其进行编码
def cross_entropy(X,y):
"""
X is the output from fully connected layer (num_examples x num_classes)
y is labels (num_examples x 1)
Note that y is not one-hot encoded vector.
It can be computed as y.argmax(axis=1) from one-hot encoded vectors of labels if required.
"""
m = y.shape[0]
p = softmax(X)
log_likelihood = -np.log(p[range(m),y])
loss = np.sum(log_likelihood) / m
return loss
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。