audio-processing专题提供audio-processing的最新资讯内容,帮你更好的了解audio-processing。
我想从我的麦克风录制音频,并通过语音转文本 API(几乎)实时转录。我可以使用的 STT API 是 Vocapia 的
我想从音频中删除所有非人声部分,使其适合语音识别数据集。我使用了 Spleeter 来分离人声,效果很好
我知道这已经发布了 <a href="https://stackoverflow.com/questions/3673042/algorithm-to-remove-vocal-from-sound-track">more than 10
我正在尝试从音频文件中识别所有字母。 音频文件 (26) 是我说字母表的录音。 所以我正在尝试实现一个
我找不到任何这样做的插件。所以我想我必须实现我自己的。您能否指导我实现音频处理库的正确方向
我正在使用数字放大器,从我所见,信号链的开头有一个隔直滤波器。我的问题分解如下: <ol> <li>为
我们的要求 <ul> <li>获取音频缓冲区并使用 C 处理缓冲区,以通过创建和应用声音掩码来降低噪音。</l
我有一组想要生成频谱图的 wav 文件。但是当我使用 tf.audio.decode_wav 函数时,出现以下错误: <块引用
我想读取我录制的 wav 文件并将其用于信号处理,处理方法如下: <pre><code>//SIGNAL PROCESSING private void pr
刚在应用中开始录制时,我就听到了咔嗒声。我不知道它来自哪里,我认为它可能来自点击按钮,但这
我通常使用此命令将带有 ffmpeg 的音频流转发到环回设备: <code>ffmpeg -f alsa -i hw:1,0 -f alsa hw:Loopback -
你好,这是我第一次在 stackoverflow 上提问:) 我有一个一般问题和几个具体问题。后者在细节之后提
我有一个 .mp3 文件,我想将其转换为适合上传的视频格式,同时又不损失音频质量。 音频有潜意识信息
我正在尝试读取 <code>.wav</code> 文件,改变音高,然后将其写入 android 上的新文件。我正在使用 TarsosDSP
我正在做一些音频预处理来训练 ML 模型。<br/> 数据集的所有音频文件为: <块引用> RIFF(小端)数
我正在尝试制作一个能够从录音中提取人类语音的模型。为此,我加载了 1500 个嘈杂的文件(其中一些
所以我目前正在尝试弄清楚如何在 STM32F4DISCOVERY 板上使用 STM32CubeMX MCU 软件包附带的“音频播放和录制”
我正在尝试对某些音频文件运行一些批处理音频。 <ol> <li>读取 wav 文件</li> <li>消除沉默</li> <li>将音
我想预测“重复”一词在演讲中的出现次数以及该词的大致持续时间。对于这项任务,我计划构建一个
<pre><code>result=librosa.feature.mfcc(signal, 16000, n_mfcc=13, n_fft=2048, hop_length=400) result.shape() </code></pre> 信号长 1 秒