audio-processing - 编程之家

我想从我的麦克风录制音频，并通过语音转文本 API（几乎）实时转录。我可以使用的 STT API 是 Vocapia 的

我想从音频中删除所有非人声部分，使其适合语音识别数据集。我使用了 Spleeter 来分离人声，效果很好

我知道这已经发布了 <a href="https://stackoverflow.com/questions/3673042/algorithm-to-remove-vocal-from-sound-track">more than 10

我正在尝试从音频文件中识别所有字母。音频文件 (26) 是我说字母表的录音。所以我正在尝试实现一个

我找不到任何这样做的插件。所以我想我必须实现我自己的。您能否指导我实现音频处理库的正确方向

我正在使用数字放大器，从我所见，信号链的开头有一个隔直滤波器。我的问题分解如下： <ol> <li>为

我们的要求 <ul> <li>获取音频缓冲区并使用 C 处理缓冲区，以通过创建和应用声音掩码来降低噪音。</l

我有一组想要生成频谱图的 wav 文件。但是当我使用 tf.audio.decode_wav 函数时，出现以下错误： <块引用

我想读取我录制的 wav 文件并将其用于信号处理，处理方法如下： <pre><code>//SIGNAL PROCESSING private void pr

刚在应用中开始录制时，我就听到了咔嗒声。我不知道它来自哪里，我认为它可能来自点击按钮，但这

我通常使用此命令将带有 ffmpeg 的音频流转发到环回设备： <code>ffmpeg -f alsa -i hw:1,0 -f alsa hw:Loopback -

你好，这是我第一次在 stackoverflow 上提问:) 我有一个一般问题和几个具体问题。后者在细节之后提

我有一个 .mp3 文件，我想将其转换为适合上传的视频格式，同时又不损失音频质量。音频有潜意识信息

我正在尝试读取 <code>.wav</code> 文件，改变音高，然后将其写入 android 上的新文件。我正在使用 TarsosDSP

我正在做一些音频预处理来训练 ML 模型。<br/> 数据集的所有音频文件为： <块引用> RIFF（小端）数

我正在尝试制作一个能够从录音中提取人类语音的模型。为此，我加载了 1500 个嘈杂的文件（其中一些

所以我目前正在尝试弄清楚如何在 STM32F4DISCOVERY 板上使用 STM32CubeMX MCU 软件包附带的“音频播放和录制”

我正在尝试对某些音频文件运行一些批处理音频。 <ol> <li>读取 wav 文件</li> <li>消除沉默</li> <li>将音

我想预测“重复”一词在演讲中的出现次数以及该词的大致持续时间。对于这项任务，我计划构建一个

<pre><code>result=librosa.feature.mfcc(signal, 16000, n_mfcc=13, n_fft=2048, hop_length=400) result.shape() </code></pre> 信号长 1 秒