如何解决Vggish 参数设置:如何将 log-mel 频谱图制作成任意频率?
你好,这是我第一次在 stackoverflow 上提问:)
我的目标:
- 给定一个 wav 文件和时间上连续的标签(例如,唤醒轨迹,
[-1,1]
内的实数,并且是n x 1
维),我想提取n x m
的听觉特征波形文件,然后输入到像 LSTM 这样的时间模型中,获得n x 1
中的预测。预测和标签具有相同的维度,因此可以计算相关性以进行评估。
我的一般问题:
- 如何使用 tensorflow/models/research/audioset/vggish 中预训练的 vggish 模型提取匹配特定标签频率的听觉特征?
一些细节:
-
在分类方式上不会有问题,因为那样的话整个视频都应用了相同的标签,无论我如何设置窗口秒或跳秒,对应的标签都可以通过从视频继承生成。
-
来自 tensorflow/models/research/audioset/vggish 的 vggish 模型使用
96 x 64
log-mel 频谱图块进行预训练。此大小无法更改,否则预训练的 vgg 模型可能无法工作。这个特定大小的补丁是通过以下参数获得的:
# Hyperparameters used in feature and example generation.
SAMPLE_RATE = 16000
STFT_WINDOW_LENGTH_SECONDS = 0.025
STFT_HOP_LENGTH_SECONDS = 0.010
NUM_MEL_BINS = NUM_BANDS
MEL_MIN_HZ = 125
MEL_MAX_HZ = 7500
LOG_OFFSET = 0.01 # Offset used for stabilized log of input mel-spectrogram.
EXAMPLE_WINDOW_SECONDS = 0.96 # Each example contains 96 10ms frames
EXAMPLE_HOP_SECONDS = 0.96 # with zero overlap.
更多附带问题:
- 根据上面的代码片段和预训练的Vggish的参数设置,
感谢您的宝贵时间!!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。