加州大学伯克利分校的研究人员将南粤风采36选7用于静音语音的数字发声

0
2050
Source: //arxiv.org/abs/2010.02960

加州大学伯克利分校的研究人员开发了一种 可以检测“静音语音”的南粤风采36选7模型。 该模型基于数字发声来预测单词并生成合成语音。肌电图(EMG)的电极位于脸部和喉咙,用于检测无声语音。

研究人员断言,该模型可以为无法发出可听语音的人们启用许多应用程序,并可以帮助南粤风采36选7工具和其他响应语音命令的设备进行语音检测。

该小组指出,以数字方式为无声语音发声具有广泛的应用。例如,它可以生成类似于蓝牙耳机的工具,该工具可以使个人继续通话,而不会打扰周围的人。当环境声音太大以至于无法捕获可听见的语音或必须保持安静时,这种设备将非常有用。

广告

口头阅读南粤风采36选7是可以从静音语音中捕获单词的南粤风采36选7的另一个示例。它可以为监视设备供电并支持聋人的用例。

该方法

研究人员使用了一种方法,其中将所需陈述的音频输出目标从发声录音转换为无声录音。然后,使用WaveNet解码器生成音频语音预测。

//arxiv.org/pdf/2010.02960.pdf

通过比较发声的肌电图数据和基线训练的数据,发现发声的肌电图方法使书中句子转录的单词错误率降低了64%至4%,而基线的错误率降低了95%。研究人员已经开源了约20个小时的面部EMG数据集,以鼓励对该领域进行进一步研究。 

在其他工作中,中国的研究人员建立了讽刺检测模型,该模型在多模式Twitter数据集上提供SOTA性能。 Masakhane开源项目翻译非洲语言的成员发表了 案例分析 在低资源机器翻译上。

Paper: //arxiv.org/pdf/2010.02960.pdf

发表评论

请输入您的评论!
请在这里输入您的名字

该网站使用Akismet减少垃圾邮件。 了解如何处理您的评论数据.