论文名称:BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMbedDING FOR EFFICIENT COVER SONG IDENTIFICATION(ICAssp2022)
代码地址:暂无
模型结构
-
resnet-IBN模块:沿用bytecover的resnet-IBN作为backbone,IBN block的stride调整为1,添加max pool池化层。
-
PCA-FC模块:假设输入特征为X=CxN
-
PCA降维:(学习链接【机器学习】降维——PCA(非常详细) - 知乎)
-
PCA降维目标:
-
要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以转换到新的特征空间,同时希望投影后的投影值尽可能分散,因为如果重叠就会有样本消失。
-
将一组 N 维向量降为 K 维,其目标是选择 K 个单位正交基,使得原始数据变换到这组基上后,各变量两两间协方差为 0,而变量方差则尽可能大(在正交的约束下,取最大的 K 个方差)。
-
-
PCA降维步骤:X为输入音频特征CxN,公式3求协方差矩阵,挑选协方差矩阵top-k个最大的特征值对应的特征向量组成U,R(X)表示降维后的音频特征
- PCA降维可能带来的问题:1.去除冗余信息时会丢弃一些有用的可区分音频的特2.PCA降维与CSI特征抽取模型的解耦。
-
-
FC降维:
-
-
PCA-FC降维:将PCA的特征矩阵作为FC层W权重的初始化参数,从而引入先验知识和限制,而后该层参数随着抽特征模块一同优化。
模型实验结果
原文地址:https://www.jb51.cc/wenti/3287909.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。