如何解决Azure PullAudioInputStream无法与Twilio语音正确配合使用
我将Twilio Media流与Azure认知服务(语音到文本)集成在一起。我继承了speechsdk.audio.PullAudioInputStreamCallback
类,将音频块发送到服务器。
import azure.cognitiveservices.speech as speechsdk
import queue
class SocketReaderCallback(speechsdk.audio.PullAudioInputStreamCallback):
def __init__(self):
super().__init__()
self._q = queue.Queue()
def read(self,buffer: memoryview) -> int:
chunk = self._q.get()
buffer[:len(chunk)] = chunk
return len(chunk)
def has_bytes(self):
return True if self._q.qsize() > 0 else False
def queueup(self,chunk):
self._q.put(chunk)
def close(self):
print("AZ.Callback.Closed")
下面是转录器类的代码。这里的add_request
方法将音频块添加到上述回调类的Queue中。回调类从队列中选择大块并上传到Azure服务器以进行转录。
import azure.cognitiveservices.speech as speechsdk
import queue
from rule_engine.medium.azure_transcribe.azure_calback import SocketReaderCallback
class AzureTranscribe:
def __init__(self,speech_config,on_response,user_id):
self._on_response = on_response
self.callback = SocketReaderCallback()
wave_format = speechsdk.audio.AudioStreamFormat(samples_per_second=8000,bits_per_sample=8,channels=1)
self._stream = speechsdk.audio.PullAudioInputStream(self.callback,wave_format)
audio_config = speechsdk.audio.AudioConfig(stream=self._stream)
self._speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config,language="en-IN",audio_config=audio_config)
self._ended = False
self.user_id = user_id
self.initialize_once()
self.state = None
def initialize_once(self):
# Connect callbacks to the events fired by the speech recognizer
self._speech_recognizer.recognizing.connect(lambda evt: print('AZ.RECOGNIZING: {}'.format(evt)))
self._speech_recognizer.recognized.connect(lambda evt: print('AZ.RECOGNIZED: {}'.format(evt)))
self._speech_recognizer.session_started.connect(lambda evt: print('AZ.SESSION STARTED: {}'.format(evt)))
self._speech_recognizer.session_stopped.connect(lambda evt: print('AZ.SESSION STOPPED {}'.format(evt)))
self._speech_recognizer.canceled.connect(lambda evt: print('AZ.CANCELED {}'.format(evt)))
self._speech_recognizer.start_continuous_recognition()
def add_request(self,buffer):
# buffer,self.state = audioop.ratecv(bytes(buffer),2,8000,16000,self.state)
self.callback.queueup(bytes(buffer))
def terminate(self):
self._ended = True
self._speech_recognizer.stop_continuous_recognition()
- 如果我从音频文件上传音频块,则转录为 准确。
- 如果我从twilio呼叫上传音频块,则转录为 非常糟糕。
Twilio的采样率为8 kHz,而Azure的预期采样率为 是16 kHz。但是,Azure既可以使用采样率,又可以提供差的采样率 两者的质量转录。
解决方法
请使用语音服务SDK压缩音频输入流API通过PullStream或PushStream将压缩音频流传输到语音服务。
我们建议使用一种方法将音频转换为支持的格式。 •您可以使用FFMpeg进行音频格式转换。音频文件的正确格式为16kHz,16Bit和Mono。正确的目标格式的命令行为: ffmpeg.exe -i inputfile.wav -sample_fmt s16 -ac 1 -ar 16000 outputfile.wav
对于压缩的音频输入流,请遵循doc。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。