如何解决在移动设备上进行声音识别训练是否可行?
有很多关于声音分类的文献,其中可能的匹配是现代世界中发现的任何声音(例如:http://projects.csail.mit.edu/soundnet/)。这个问题的不同之处在于,它仅限于搜索少数本地录制和训练的特定声音。这个问题是关于编码移动应用程序的可行性,该应用程序将录制并转换少量声音(例如少于10个),然后能够“收听”并识别这些声音。
在类似的unanswered SO question中,作者以门铃的声音为例。我想对狗的发声进行分类,这与我的示例有所不同。我可能会定义“ fido bark”,“ rover bark”,“ fido whine”,“ rover whine”,所以当应用程序处于训练模式时,有四个按钮。然后,狗将发出声音,而人类使用者将对每种声音进行分类。然后,该应用程序将更改为收听模式,如果某个狗发出了一定的发声,则该应用程序将匹配声音并显示哪只狗和发生了什么发声。
在不进行外部处理的情况下,在典型的移动设备上对上述应用程序进行编码是否可行?如果可以,怎么办?
解决方法
这是可行的。我找到了一篇使用Core ML和Skafos库将基于声音的鸟分类模型部署到iOS的文章:Detecting Bird Sounds with Create ML,CoreML3,and Skafos。
因此,假设您已经有了数据,然后经过训练的模型,也可以用狗来做。
,为了使用移动设备对音频进行分析,需要与脱机分析(通常发现:频谱图,频移,CNN分类器,合奏)相同的技术,但在移动设备的资源和时间约束下受到更多限制。
训练模型的过程可能最好是脱机完成,然后才能将模型部署到移动设备。在移动设备上,通常有一些有效的方法(库)可以进行图像匹配/比较。通过将音频转换为光谱仪,可以利用这些相同的比较技术。
更具体地说,这里描述了使用TensorFlow进行离线培训并部署到Android:Net Guru blog post: Audio Classification with Machine Learning – Implementation on Mobile Devices。该文章还描述了将模型部署到iOS所需的更多步骤。另外,jlibrosa是一个开放源代码库,可帮助实现音频处理的某些步骤。
Vasanthkumar Velayudham写了几篇文章,这些文章对于开始了解此领域的应用程序领域来说是个好地方,例如在heartbeat.fritz.ai和medium.com
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。