谷歌推出多模态VLOGGER A 使静态肖像图动起来“说话”

2024-03-20 17:59:06 公羊言致

导读 IT之家报道，谷歌近日在GitHub页面发布VLOGGER AI模型。用户只需提供一张肖像照片和音频内容，该模型可使人物“动起来”，以丰富的面部表情朗读音频内容。

IT之家报道，谷歌近日在GitHub页面发布VLOGGER AI模型。用户只需提供一张肖像照片和音频内容，该模型可使人物“动起来”，以丰富的面部表情朗读音频内容。VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型，使用 MENTOR 数据库进行训练，该数据库中包含超过 80 万名人物肖像，以及累计超过 2200 小时的影片，从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

研究人员表示：“和此前的多模态相比，VLOGGER 的优势在于不需要对每个人进行训练，不依赖于人脸检测和裁剪，可以生成完整的图像（而不仅仅是人脸或嘴唇），并且考虑了广泛的场景（例如可见躯干或不同的主体身份），这些对于正确合成交流的人类至关重要”。Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步，之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。
VLOGGER的应用场景涵盖报告、教育和旁白等领域，还可编辑现有视频，调整表情不满意的部分。

标签：谷歌，VLOGGER A

​谷歌推出多模态VLOGGER A 使静态肖像图动起来“说话”

谷歌推出多模态VLOGGER A 使静态肖像图动起来“说话”