微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

在没有事先语音注册的情况下,如何使用Microsoft语音对文本进行说话人识别透析?

如何解决在没有事先语音注册的情况下,如何使用Microsoft语音对文本进行说话人识别透析?

在我的应用程序中,我需要记录人与人之间的对话,并且物理工作流程中没有空间来为每个人的语音采样20秒以训练识别器,也不要求每个人阅读罐头食品密码进行培训。但是据我所知,没有这样做,就无法获得说话人身份。

有没有办法只记录说5个人的讲话,让识别器将返回的文本自动分类为属于5个不同的人之一,而无需事先培训?

(在我的测试中,IBM Watson可以做到这一点,尽管它做得并不十分准确。)

解决方法

如果我正确理解了您的问题,那么Conversation Transcription应该是您的解决方案,因为如果您不生成用户个人资料,它将以Speaker[x]的身份显示发言人并为每个新发言人进行迭代

用户语音样本是可选的。没有此输入,抄录 将显示不同的扬声器,但显示为“ Speaker1”,“ Speaker2”, 等等,而不是将其识别为预先注册的特定演讲者姓名。

您可以开始进行实时对话转录quickstart

,

预览中的Microsoft对话转录,现在定位到麦克风阵列设备。因此,输入录音应通过麦克风阵列进行录音。如果您的录音来自普通麦克风,则可能无法正常工作,您需要进行特殊配置。您也可以尝试Batch diarization来支持脱机转录,现在可以使2位发言人说话,这将很快支持2位以上的发言人。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。