在移动设备上进行声音识别训练是否可行？

如何解决在移动设备上进行声音识别训练是否可行？

有很多关于声音分类的文献，其中可能的匹配是现代世界中发现的任何声音（例如：http://projects.csail.mit.edu/soundnet/）。这个问题的不同之处在于，它仅限于搜索少数本地录制和训练的特定声音。这个问题是关于编码移动应用程序的可行性，该应用程序将录制并转换少量声音（例如少于10个），然后能够“收听”并识别这些声音。

在类似的unanswered SO question中，作者以门铃的声音为例。我想对狗的发声进行分类，这与我的示例有所不同。我可能会定义“ fido bark”，“ rover bark”，“ fido whine”，“ rover whine”，所以当应用程序处于训练模式时，有四个按钮。然后，狗将发出声音，而人类使用者将对每种声音进行分类。然后，该应用程序将更改为收听模式，如果某个狗发出了一定的发声，则该应用程序将匹配声音并显示哪只狗和发生了什么发声。

在不进行外部处理的情况下，在典型的移动设备上对上述应用程序进行编码是否可行？如果可以，怎么办？

解决方法

这是可行的。我找到了一篇使用Core ML和Skafos库将基于声音的鸟分类模型部署到iOS的文章：Detecting Bird Sounds with Create ML,CoreML3,and Skafos。

因此，假设您已经有了数据，然后经过训练的模型，也可以用狗来做。

为了使用移动设备对音频进行分析，需要与脱机分析（通常发现：频谱图，频移，CNN分类器，合奏）相同的技术，但在移动设备的资源和时间约束下受到更多限制。

训练模型的过程可能最好是脱机完成，然后才能将模型部署到移动设备。在移动设备上，通常有一些有效的方法（库）可以进行图像匹配/比较。通过将音频转换为光谱仪，可以利用这些相同的比较技术。

更具体地说，这里描述了使用TensorFlow进行离线培训并部署到Android：Net Guru blog post: Audio Classification with Machine Learning – Implementation on Mobile Devices。该文章还描述了将模型部署到iOS所需的更多步骤。另外，jlibrosa是一个开放源代码库，可帮助实现音频处理的某些步骤。

Vasanthkumar Velayudham写了几篇文章，这些文章对于开始了解此领域的应用程序领域来说是个好地方，例如在heartbeat.fritz.ai和medium.com

在移动设备上进行声音识别训练是否可行？

如何解决在移动设备上进行声音识别训练是否可行？

解决方法

相关推荐