如何解决模型建议:关键字发现
我想预测“重复”一词在演讲中的出现次数以及该词的大致持续时间。对于这项任务,我计划构建一个深度学习模型。我有大约 50 个正面和 50 个负面话语(我无法收集更多)。
最初我搜索了任何用于关键字识别的预训练模型,但没有找到一个好的。
然后我尝试了语音识别模型(深度语音),但它无法预测确切的重复词,因为我的数据遵循印度口音。此外,我认为为这项任务使用 ASR 模型将是一个过度杀伤的模型。
现在,我将整个音频分成 1 秒的块,重叠 50% 并在每个块中尝试二进制音频分类,即块是否包含“重复”一词.为了构建分类模型,我计算了 MFCC 特征并在其之上构建了一个序列模型。似乎没有什么对我有用。
如果有人已经处理过此类任务,请为我提供正确的方法/资源来为此任务构建 DL 模型。提前致谢!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。