VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

https://www.microsoft.com/en-us/research/project/vasa-1/

微软的一篇关于 talking head 的工作，叫：VASA-1。VASA-1 是利用一段音频和一张照片，生成一段该照片说话的视频。

他的核心贡献是：

结合 Diffusion 范式和 transformer 网络框架，将其利用在 talking head 领域。

下图是简介：

Training and Testing

从上图可以概括来讲：

模型框架叫：motion latent diffusion。它是基于 transformer-based，结合 diffusion 范式（数据处理方式，loss）
模型的生成目标是：目标条件下的人脸的 motion latents
预测的时候，利用训练好的 motion latent diffusion 得到 motion latents，结合 single frame 的 app volume 和 ID latent，decode成视频帧。

细节上：

在训练的时候，会先对一段视频做音频和视频帧的处理：

$E_{audio}$：音频特征提取；文中利用的是 audio2wav 预训练好的模型。
$E_{mtn}:$ 表情动作特征提取；文中是基于另外一篇工作：MegaPortraits: One-shot megapixel neural head avatars，利用训练好的 MegaPortraits 的 motion encoder 来提取视频帧的 motion latents。
本文对 MegaPortraits 的模型进行优化，主要是 loss 设计上的，后面会提到。

motion latent diffusion 训练 pipeline 很清晰明了：把音频特征，motion latents 以及 other conditions，拼成一个大的 token，利用 transformer 结构，结合 diffusion loss 进行训练，生成目标 motion latents。

预测部分：

app.volume 和 ID latent，是利用 MegaPortraits : One-shot megapixel neural head avatars 中的方法，获取的。

其中涉及到如何把一张人脸进行属性解耦，具体是采用MegaPortraits : One-shot megapixel neural head avatars中的方法，如下图：

简要介绍 MegaPortraits 的训练思路：

训练第一阶段，从同一段视频中采样 $x_s$ 和 $x_d$ 两帧视频帧，利用 $E_{app}$ 提取 $v_s$ 和 $e_s$. 利用 $E_{mtn}$ 分别提取 $x_s$ 和 $x_d$ $z_s$ 和 $z_d$。训练把 $x_s$ 的 motion 去掉，并投射到一个标准坐标在，然后在诸如 $x_d$ 的 motion。