在没有事先语音注册的情况下，如何使用Microsoft语音对文本进行说话人识别透析？

在我的应用程序中，我需要记录人与人之间的对话，并且物理工作流程中没有空间来为每个人的语音采样20秒以训练识别器，也不要求每个人阅读罐头食品密码进行培训。但是据我所知，没有这样做，就无法获得说话人身份。

有没有办法只记录说5个人的讲话，让识别器将返回的文本自动分类为属于5个不同的人之一，而无需事先培训？

（在我的测试中，IBM Watson可以做到这一点，尽管它做得并不十分准确。）

如果我正确理解了您的问题，那么Conversation Transcription应该是您的解决方案，因为如果您不生成用户个人资料，它将以Speaker[x]的身份显示发言人并为每个新发言人进行迭代

用户语音样本是可选的。没有此输入，抄录将显示不同的扬声器，但显示为“ Speaker1”，“ Speaker2”，等等，而不是将其识别为预先注册的特定演讲者姓名。

您可以开始进行实时对话转录quickstart。

预览中的Microsoft对话转录，现在定位到麦克风阵列设备。因此，输入录音应通过麦克风阵列进行录音。如果您的录音来自普通麦克风，则可能无法正常工作，您需要进行特殊配置。您也可以尝试Batch diarization来支持脱机转录，现在可以使2位发言人说话，这将很快支持2位以上的发言人。