Meta希望虚拟景观听起来像真实生活

2022-06-28 16:09:21 鲁苇希

导读 Meta和德克萨斯大学奥斯汀分校(UTAustin)的一组研究人员正在努力将逼真的音频带入虚拟世界。正如MetaAI研究总监KristenGaruman解释的那样(

Meta和德克萨斯大学奥斯汀分校(UTAustin)的一组研究人员正在努力将逼真的音频带入虚拟世界。正如MetaAI研究总监KristenGaruman解释的那样(在新标签中打开)，增强现实和虚拟现实(分别为AR和VR)不仅仅是视觉效果。音频在使世界充满活力方面起着非常重要的作用。Garuman说“音频是由[它]所处的环境塑造的。”有多种因素会影响声音的表现，例如房间的几何形状、房间里有什么，以及某人离声源有多远。

为了实现这一点，Meta的计划是使用AR眼镜从一个位置录制音频和视频，然后使用一组三个AI模型，对录制内容进行转换和清理，以便在回放时感觉就像在你面前发生在家。AI会考虑您所在的房间，以便与环境相匹配。

从项目来看，Meta似乎专注于AR眼镜。Meta的VR头显计划包括复制环境的景象和声音，比如音乐会，让您感觉就像身临其境。

我们问Meta人们如何才能听到增强的音频。人们需要一副耳机来听还是来自耳机?我们没有得到回应。

我们还询问了Meta，开发人员如何才能掌握这些AI模型。它们已经开源，因此第三方开发人员可以使用该技术，但Meta没有提供任何进一步的细节。

问题是Meta如何在一副AR眼镜上录制音频并让它反映新的环境。

第一个解决方案被称为AViTAR，它是一种“视觉声学匹配模型”。(在新标签中打开)这是转换音频以匹配新环境的人工智能。Meta提供了一个例子，一位母亲戴着一副AR眼镜在礼堂录制她孩子的舞蹈独奏会。

其中一位研究人员声称，有问题的母亲可以将这段录音带回家中播放，人工智能将对音频进行变形。它会扫描环境，考虑房间内的任何障碍物，并让演奏的声音就像在她面前发生的一样，戴着同样的眼镜。研究人员表示，音频将来自眼镜。

为了帮助清理音频，有Visual-InformedDereverberation(在新标签中打开).基本上，它消除了剪辑中令人分心的混响。给出的例子是在火车站录制小提琴音乐会，把它带回家，然后让AI清理剪辑，这样你就只能听到音乐。

最后一个AI模型是VisualVoice(在新标签中打开)，它使用视觉和音频提示的组合将声音与其他噪音区分开来。想象一下录制两个人争吵的视频。这个人工智能会隔离一个声音，这样你就可以理解它们，同时让其他一切静音。Meta解释说视觉提示很重要，因为人工智能需要看到谁在说话，才能理解某些细微差别并知道谁在说话。

关于视觉效果，Meta表示他们计划引入视频和其他提示，以进一步增强AI驱动的音频。由于这项技术仍处于早期开发阶段，尚不清楚Meta是否以及何时将这些AI带到您附近的Quest耳机上。如果您正在考虑购买OculusQuest2

标签：