GigaGAN文生图：Scaling up GANs for Text-to-Image Synthesis

这是一篇关于 https://arxiv.org/abs/2303.05511 的笔记。

近两年基于扩散概率模型和自回归模型的文生图大模型发展迅速。20，21年的SOTA生成网络GAN在这一波文生图大模型发展中缺失了。本文研究的问题是把GAN based 的模型放大，并利用目前文生图领域积累的 image-text 大数据，去训练一个 GAN based 的文生图大模型：GigaGAN。

GigaGAN 的参数量是 1B，是 StyleGAN 的36倍，StyleGAN-XL 的 6倍。对比Stable Diffusion的参数量是 700M， Imagen： 3.0B， DALLE-2: 5.5B, Parti: 20B。 GigaGAN的参数量不算很大。

在1B参数量的情况下，由于GAN 的 sample 不是 Diffusion那种需要迭代多个 Step，sample的耗时上有一些优势：

sample 512 px 的 image 需要 0.13s （A100）

sample 4k （16-megapixel）需要 3.66s

Giga 的网络结构图：

GigaGAN 的网络结构看起来是 StyleGAN 和 StableDiffusion 的结合体。
GigaGAN 的生成网络结构部分和 StyleGAN 类似。通过一个 Mapping Network 学习出一个 style code $w$。然后把 style code $w$ 送到生成网络 G 中。StyleGAN的backbone是基于conv的，GigaGAN把 attention 层引入到了 StyleGAN的网络中。
GigaGAN是一个文生图模型。先通过 CLIP 的text encoder 和一个训练好的 text encoder 对文本进行编码，然后利用 Cross Attention 的方法把文本信息嵌入到生成网络G中。文本编码部分分成 $t_{local}$ 和 $t_{global}$。 global 比 local 多了一结尾符。local 用来作为 cross attention 的 query，golbal 和 z 作为 mapping 网络的input输入。
生成网络：$f_{l+1} = g^l_{xa}(g^l_{attn} (g^l_{adaconv} (f_l, w), w), t_{local})$。网络生成是金字塔结构，分为五层（每层都会输出RGB，还记得 StyleGANv2的设计吗？）

$x_{i=0}^{L−1} = {x_0, x_1, …, x_4},$ with spatial resolutions ${S_i}_{i=0}^{L−1} ={64,32,16,8,4}$
判别器：（1）文本编码会被送到判别网络作为判别的一部分。（2）每一个尺度都会进行判别。

训练数据集是 LAIOA2B-en 以及 COYO-700M。

Experiments

文中每一项优化的消融实验

和其他文生图模型的对比

GigaGAN 比 DALLE·2，SD 和 Parti-750M 的 FID 更低。

and SD-v1.5 require 4,783 and 6,250 A100 GPU days, and Imagen and Parti need approximately 4,755 and 320 TPUv4 days for training。

GigaGAN sample的速度优势：

超分方面的量化指标：

总结：

第一个把GAN做成文生图大模型的工作
从文中公开的结果来看，文生图效果从视觉角度来看，和Diffusion， AR 模型还是有一些差距。不排除是第一篇GAN文生图大模型，效果没办法一开始就做到非常好。
但超分的效果的确很好，而且速度也有着不小的优势。