导读 IT之家报道,谷歌近日在GitHub页面发布VLOGGER AI模型。用户只需提供一张肖像照片和音频内容,该模型可使人物“动起来”,以丰富的面部表情朗读音频内容。
IT之家报道,谷歌近日在GitHub页面发布VLOGGER AI模型。用户只需提供一张肖像照片和音频内容,该模型可使人物“动起来”,以丰富的面部表情朗读音频内容。VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

VLOGGER的应用场景涵盖报告、教育和旁白等领域,还可编辑现有视频,调整表情不满意的部分。
标签: 谷歌,VLOGGER A
版权声明:本文由用户上传,如有侵权请联系删除!