Alexa 是如何编程来唱歌的？

如何解决Alexa 是如何编程来唱歌的？

如果你说“Alexa，为我唱歌”，她会选择几首用她的声音创作的歌曲中的一首。每首歌曲的声音都必须以某种方式创建。

起初，我认为 SSML 会提供执行此操作所需的工具，尤其是 <prosody> tag，它具有 pitch 和 rate（持续时间）的参数。

我想也许唱歌的每个音节都可以用 <phoneme> 指定发音，用 <prosody> 指定音高和持续时间，中间有 <break> 标签：

<speak>
  <prosody rate="20%">
    <phoneme alphabet="x-sampa" ph="U">oo</phoneme>
    <break strength="none" />
  </prosody>
  <prosody rate="20%" pitch="+50%">
    <phoneme alphabet="x-sampa" ph="U">oo</phoneme>
    <break strength="none" />
  </prosody>
  <prosody rate="20%">
    <phoneme alphabet="x-sampa" ph="U">oo</phoneme>
  </prosody>
</speak>

但是，在执行时，Alexa 应用了她的内置音调（听起来像真人），因此语气并不平坦。例如，这些“ooh”声音（上图）每个都有下降音。（即使明确指定了“不中断”，它们在音素之间也有明显的中断。）

那么，听到所有这些歌曲的 Alexa 声音是如何被编程的？是通过目前仅对亚马逊开发者可用的工具吗？

令我感到困惑的是，我显然是互联网上唯一一个甚至提出这个问题的人（基于 stackoverflow、google 等的零结果），尤其是在游戏后期。不是有很多音乐家愿意让 Alexa 随心所欲地唱歌吗？

编辑：伙计们，我认为这是常识，但 there is no human voice actor 落后于 Alexa。她的声音完全由计算机生成。

解决方法

Alexa 的声音完全由计算机生成，歌曲也是如此。正在研究生成歌唱合成器模型（#1 和 #2）。

这是 Popgun Labs 关于 how they make their AI sing 的视频。虽然我无法找到亚马逊和谷歌是如何做到这一点的，但我猜应该是类似的。

编辑：我之前的回答是基于扩展页面并得出了不正确的结论。

我的预测要么是像自然语言处理这样的真正奇特的东西，要么是类似的东西，人工智能/机器学习，或者他们只是让配音演员唱出一些东西或唱出特定的音调，然后把它们剪在一起，我没有Alexa，但我确实有 HomePod mini 和 iPhone 以及它发音我们当地歌手名字的方式，例如“sidhu moosewala”或“amrit maan”（题外话但仍然相关）我相信他们只是将单词剪切并组合成“干净的” ”和“流动”的方式。

也许她的声音只是自动调整。

当然，音高转换工具可以从任何音频源强制任何想要的音高，我认为这些工具也可以强制改变持续时间。

Alexa 是如何编程来唱歌的？

如何解决Alexa 是如何编程来唱歌的？

解决方法

相关推荐