Meta和德克萨斯大学奥斯汀分校(UTAustin)的一组研究人员正在努力将逼真的音频带入虚拟世界。正如MetaAI研究总监KristenGaruman解释的那样(在新标签中打开),增强现实和虚拟现实(分别为AR和VR)不仅仅是视觉效果。音频在使世界充满活力方面起着非常重要的作用。Garuman说“音频是由[它]所处的环境塑造的。”有多种因素会影响声音的表现,例如房间的几何形状、房间里有什么,以及某人离声源有多远。
为了实现这一点,Meta的计划是使用AR眼镜从一个位置录制音频和视频,然后使用一组三个AI模型,对录制内容进行转换和清理,以便在回放时感觉就像在你面前发生在家。AI会考虑您所在的房间,以便与环境相匹配。
从项目来看,Meta似乎专注于AR眼镜。Meta的VR头显计划包括复制环境的景象和声音,比如音乐会,让您感觉就像身临其境。
我们问Meta人们如何才能听到增强的音频。人们需要一副耳机来听还是来自耳机?我们没有得到回应。
我们还询问了Meta,开发人员如何才能掌握这些AI模型。它们已经开源,因此第三方开发人员可以使用该技术,但Meta没有提供任何进一步的细节。
问题是Meta如何在一副AR眼镜上录制音频并让它反映新的环境。
第一个解决方案被称为AViTAR,它是一种“视觉声学匹配模型”。(在新标签中打开)这是转换音频以匹配新环境的人工智能。Meta提供了一个例子,一位母亲戴着一副AR眼镜在礼堂录制她孩子的舞蹈独奏会。
其中一位研究人员声称,有问题的母亲可以将这段录音带回家中播放,人工智能将对音频进行变形。它会扫描环境,考虑房间内的任何障碍物,并让演奏的声音就像在她面前发生的一样,戴着同样的眼镜。研究人员表示,音频将来自眼镜。
为了帮助清理音频,有Visual-InformedDereverberation(在新标签中打开).基本上,它消除了剪辑中令人分心的混响。给出的例子是在火车站录制小提琴音乐会,把它带回家,然后让AI清理剪辑,这样你就只能听到音乐。
最后一个AI模型是VisualVoice(在新标签中打开),它使用视觉和音频提示的组合将声音与其他噪音区分开来。想象一下录制两个人争吵的视频。这个人工智能会隔离一个声音,这样你就可以理解它们,同时让其他一切静音。Meta解释说视觉提示很重要,因为人工智能需要看到谁在说话,才能理解某些细微差别并知道谁在说话。
关于视觉效果,Meta表示他们计划引入视频和其他提示,以进一步增强AI驱动的音频。由于这项技术仍处于早期开发阶段,尚不清楚Meta是否以及何时将这些AI带到您附近的Quest耳机上。如果您正在考虑购买OculusQuest2
标签:
版权声明:本文由用户上传,如有侵权请联系删除!