微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

watson 语音到文本:无法转码数据流应用程序/八位字节流 -> 音频/x-float-array

如何解决watson 语音到文本:无法转码数据流应用程序/八位字节流 -> 音频/x-float-array

我正在尝试使用他们的 golang SDK 将 voip 调用中的原始 rtp 流发送到 IBM watson(speech-to-text) api,但得到的响应低于他们的回复

"error": "unable to transcode data stream application/octet-stream -> audio/x-float-array "

通过查看旧问题,他们似乎无法将数据识别为有效的音频源。

我正在使用带有以下标题的模型 en-US_NarrowbandModel

headers.Set("Content-Type","audio/mulaw;rate=8000;channels=1")
headers.Set("transfer-encoding","chunked")

rtp 数据包使用 PCMU 编码,采样率为 8000。来自 sdp

m=audio 4000 RTP/AVP
a=rtpmap:0 PCMU/8000

我什至尝试将 endianness 设置为小端和大端,但无济于事。

相同的设置在 python sdk 中工作,它们允许您使用流功能。 我想知道是否遗漏了 watson golang sdk 版本中的某些内容

任何指针将不胜感激。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。