EMO — Audio2Video Diffusion Model

👀 EMO 能够通过一张图片和一份音频生成富有表情的肖像视频;它不仅捕捉到细微的面部表情和头部移动,还创造对话和唱歌视频

🖌 与传统方法不同,EMO 采用直接的音频到视频的方法,抛弃了 3D 模型和地标;这意味着更平滑的过渡和更自然的表情

🫦 总体来说,EMO 在真实性和表现力方面均超越现有方法,为 “talking head” 类型的视频生成设定了新的标准

📜 点击这里阅读 research paper

频道:@RollerRolling
 
 
Back to Top