Python 音频分析：我可以从中提取哪些属性/值？

如何解决Python 音频分析：我可以从中提取哪些属性/值？

我目前正在研究一个 tkinter python 学校项目，其唯一目的是从音频文件生成图像，我将选择音频属性并将它们用作值来从中生成独特的抽象图像，但是我不不知道我可以分析哪些属性以从中提取值。因此，我一直在寻找有关哪些属性（音频、振幅...等）的指导，我可以从中提取值以使用 Python 生成图像。

解决方法

这个问题的当前形式非常广泛。（请注意，音频不是我的专业领域，因此请留意音频/视听/生成领域工作人员的意见。）

您可以采用任何一种方式进行操作：确定您想从音频创建哪种类型的图像，然后确定要使用的音频功能。另一种方法也是有效的：选择您想要探索的音频功能，然后考虑您如何最好或最有趣地以视觉方式呈现它。

图像和图像之间存在区别。对于单个图像，我能想到的最简单的事情是绘制一个正方形网格，其中正方形的视觉属性（例如正方形大小、填充颜色强度等）映射到当时的振幅。单个图像将可视化整个轨道的振幅模式。即使是这样一个简单的例子，您也可以做出很多选择（采样频率、网格布局（笛卡尔、极坐标）、每个振幅样本的可视化方式（可能有不同的形状、大小、颜色等）。（类似于 CinemaRedux 的概念，仅对音频更简单）您可以查看数据可视化领域的灵感。 Information is Beautiful 是一个很好的起点。

如果您想生成似乎进入视听领域的图像（例如抽象动画、音频反应运动图形等）。您的问题最初有标签 Processing tag，我已将其删除，但您可以使用 Processing 的 Python 模式。

在音频可视化方面，我能想到的一个很好的例子是 Robert Hogin 的作品，参见 Magnetosphere 和 Audio-generated landscape prototype。他正在使用频率分析 (FFT) 和一些平滑/数据按摩来放大对可视化有用的元素并抑制一些噪音：

（有一些方便的音频库，例如 Minim 和 beads，但是我假设您有兴趣使用原始 Python，而不是 Jython（这是官方处理 Python 模式使用的） . 他是对FFT analysis for visualisation的回答（虽然是Processing Java，但是原理可以应用到Python）

就我个人而言，到目前为止，我只将 pyaudio 用于基本的音频任务。我假设您可以将它用于幅度分析，但对于其他更复杂的任务，您可能需要额外的东西。会弹出快速搜索 librosa。

如果您想实现的目标不明确，请先尝试原型设计，然后从您能想到的最简单的音频分析和视觉元素开始（例如，随着时间的推移映射到框的幅度）。约束对创造力很有帮助，最小的方法可以转化为更清晰、最小的视觉效果。

然后您可以查看 FFT、MFCC、起始/节拍检测等。

另一个可能对原型设计有用的工具是 Sonic Visualiser。您可以打开一个轨道并使用一些内置的特征提取器。（您甚至可以从 Sonic Visualser 导出 XML 或 CSV 数据，您可以在 Python 中加载/解析这些数据并用于渲染图像）它使用名为 Vamp plugins 的插件系统（类似于 Abbleton Live、Apple Logic 等 DAW 中的 VST 插件）。如果您在运行时需要数据，则可以使用 VampPy Python 包装器。

（您可能还想从用于视听艺术作品的其他语言中汲取灵感，例如 PureData + Gems、MaxMSP + Jitter、VVVV 等）

时域：过零率、均方根能量等。 Frequency Domain：频谱带宽、通量、滚动、平坦度、MFCC 等。另外，tempo，您可以使用 librosa for Python，link : https://librosa.org/doc/latest/index.html 用于从 .wav 文件中提取，它实现了快速傅立叶变换和成帧。然后你可以对整个音频文件中上述特征的向量应用一些统计数据，如均值、标准差。

提供额外的探索途径：您有一些工具可以定性探索这个问题（而不是定量使用从音频信号中获得的指标，如最佳答案中所建议的那样）以上）

正如您提到的，目标是从声音中生成独特的抽象图像 - 我建议一个有趣的角度是应用一些机器学习技术并从源音频中得出一些情绪分类预测。

例如，您可以使用 essentia 中的 Tensorflow 模型来预测曲目的情绪，并将您选择的图像与生成的情绪分数相关联。我建议超越此范围并使用 tkinter 图像创建工具来创建与心情的映射。使用笔和纸来制定您的映射策略 - 某些情绪是否更具棱角或圆形？你会选择什么颜色映射，为什么？您有很大的自由来创建这些映射 - 因此，随着复杂性自然生成，从简单开始。

使用一些简单的情绪预测可能对您更有用，因为您对声音的定性经验比音频工程师的定量经验有更多经验.如果这是任务的要求，我认为这可能值得成为您编写的报告的中心，并记录您的映射决策和报告的设计过程。

Python 音频分析：我可以从中提取哪些属性/值？

如何解决Python 音频分析：我可以从中提取哪些属性/值？

解决方法

相关推荐