如何解决Azure 的 Speech to Text 服务是否接受 Webm 音频并提供带有时间戳的输出?
我正在尝试确定 Azure 是否是满足我的转录需求的最佳平台。
我有两个问题——Azure 的 Speech to Text 服务:
- 接受 Webm 音频作为输入?
- 它是否提供带有时间戳的输出?
解决方法
据我所知,MS Cognitive Services Speech to text 只接受 WAV 或 OGG 音频文件,我认为它不能处理 Webm、MKV 等容器。
我们是一家名为 3Scribe 的新转录初创公司(我们认为是市场上最准确的),可以将 Webm 容器作为输入处理。我们的 JSON 输出上有时间戳,并且即将推出我们的自定义输出,因此如果您正在寻找特定的内容,请在我们的支持电子邮件中给我们留言。如果您想注册并让我们知道引用此线程,我可以为您向您的帐户添加一些额外的信用。
,微软语音 SDK 也支持 webm 容器。请遵循以下示例。请将 webm 文件和格式的文件名更改为 AudioStreamContainerFormat.ANY。您还需要在客户端计算机上安装 gstreamer。
顺便说一下,您使用的是哪个平台和哪种语言?
我们还支持带有转录实际偏移量的时间戳。 json 输出将类似于 {"Id":"1384bb2080b54ce6bec99e3342092610","RecognitionStatus":"Success","DisplayText":"是什么让你来到守门人之地?","Offset":120100000,"Duration":24700>000
您可以在其中看到从流开头的偏移量和整个文本的持续时间。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。