微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

[ByteCover2]-音频翻唱检索论文笔记

论文名称:BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMbedDING FOR EFFICIENT COVER SONG IDENTIFICATION(ICAssp2022)

论文地址Bytecover2: Towards Dimensionality Reduction of Latent Embedding for Efficient Cover Song Identification | IEEE Conference Publication | IEEE Xplore

代码地址:暂无

模型结构

  • resnet-IBN模块:沿用bytecover的resnet-IBN作为backbone,IBN block的stride调整为1,添加max pool池化层。

  • PCA-FC模块:假设输入特征为X=CxN

    • PCA降维:(学习链接【机器学习】降维——PCA(非常详细) - 知乎

      • PCA降维目标:

        • 要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以转换到新的特征空间,同时希望投影后的投影值尽可能分散,因为如果重叠就会有样本消失。

        • 将一组 N 维向量降为 K 维,其目标是选择 K 个单位正交基,使得原始数据变换到这组基上后,各变量两两间协方差为 0,而变量方差则尽可能大(在正交的约束下,取最大的 K 个方差)。

      • PCA降维步骤:X为输入音频特征CxN,公式3求协方差矩阵,挑选协方差矩阵top-k个最大的特征值对应的特征向量组成U,R(X)表示降维后的音频特征

      • PCA降维可能带来的问题:1.去除冗余信息时会丢弃一些有用的可区分音频的特2.PCA降维与CSI特征抽取模型的解耦。
    • FC降维:

      • FC降维步骤:简单粗暴

         

      • FC降维问题:随机初始化的FC层降维效果差,FC层作为降维模块来说缺乏了限制,不能在降维后很好的保留重要信息。 

  • PCA-FC降维:将PCA的特征矩阵作为FC层W权重的初始化参数,从而引入先验知识和限制,而后该层参数随着抽特征模块一同优化。

模型实验结果

 

原文地址:https://www.jb51.cc/wenti/3287909.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐