谷歌 AI发布‘Hum to 搜索’:一种新的机器学习系统,可帮助通过哼唱找到歌曲

0
7419
资源: //ai.googleblog.com/2020/11/the-machine-learning-behind-hum-to.html

谷歌最近推出了 嗡嗡搜索,这是Google搜索中一种新的机器学习系统,可帮助您通过哼唱来查找歌曲。这种方法可直接从歌曲的频谱图中嵌入旋律,而无需创建中间表示。这使模型可以将哼唱的乐曲与原始的复音录音相匹配,而无需每个轨道的MIDI(乐器数字接口)版本或任何其他复杂的人工工程逻辑来提取旋律。 

识别旋律的重大挑战之一是,旋律通常包含相对较少的信息。例如, 这个卑鄙的例子 of 贝拉·乔 被说明。哼唱版本和原始版本之间的差异可以使用 频谱图, 如下所示:

可视化 嗡嗡的夹子 以及相配的录音棚录音。
//ai.googleblog.com/2020/11/the-machine-learning-behind-hum-to.html

使用左侧的图像,模型需要找到与右侧图像相对应的音频。为此,模型需要学习专注于音频的主要部分,并忽略背景人声,乐器和声音音色以及其他噪音。为了找到可以用来匹配这两个声谱图的主要旋律,人们可以在给定图像底部的直线中寻找相似之处。

广告Coursera Plus标语,包含约翰·霍普金斯大学,谷歌和密歇根大学的课程,突出显示数据科学职业发展的内容

功能背后的机器学习

开发的第一步 嗡嗡搜索 正在修改“正在播放”和“声音搜索”中使用的音乐识别模型,以处理嗡嗡声的录音。因此,用成对的输入(这里是成对的嗡嗡声或演唱的音频和录制的音频)来训练神经网络。然后,它为每个输入生成嵌入,以供以后匹配。

神经网络的训练设置
//ai.googleblog.com/2020/11/the-machine-learning-behind-hum-to.html

为了识别嗡嗡声,网络应该产生嵌入,这要求包含相同旋律的成对音频彼此靠近,尽管乐器伴奏和歌声有所不同。然后,生成的模型可以为与所引用歌曲相似的音乐生成嵌入。

模型训练

  • 要训​​练模型,第一个挑战是获取训练数据。为此,Google会在训练过程中增强音频,例如通过随机更改(演唱)输入的音高或节奏。该模型可以很好地用于唱歌,但不能哼哼或吹口哨。
  • 为了改进模型以达到所需目的,它使用 香料,一种音调提取模型,可产生由离散音频组成的旋律。这将从现有的音频数据集中生成模拟的嗡嗡作曲的其他训练数据。 
  • 后来,这种方法用神经网络代替了简单的音频发生器,该神经网络产生的声音类似于实际的嗡嗡声或啸叫声。例如,这是 演唱(输入)片段, 转化成 嗡嗡的夹子 or whistling clip.
  • 最后,通过混合和匹配音频样本比较训练数据。例如,如果有来自两个不同歌手的相似剪辑,它将两个剪辑与初步模型对齐。因此,该模型可以具有一对附加的代表相同旋律的音频片段。
从演唱的音频中产生嗡嗡声
//ai.googleblog.com/2020/11/the-machine-learning-behind-hum-to.html

但是,此模型需要进一步更改。应用这些更改之后,当前系统在包含超过五百万首歌曲的歌曲数据库中获得了更高的准确性,这些歌曲正在不断更新。

嗡嗡搜索 in the 谷歌 App
//ai.googleblog.com/2020/11/the-machine-learning-behind-hum-to.html

要尝试此功能, 

  • 打开最新版本的Google应用。
  • 点按麦克风图标,然后问:“这是什么歌?”或单击“搜索歌曲”按钮
  • 您可以哼,唱歌或吹口哨。
  • 嗡嗡搜索 can then find and playback a song without having to type its name.

资源: //ai.googleblog.com/2020/11/the-machine-learning-behind-hum-to.html

广告

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.