Review EMO

主页: EMO 简介: 阿里最新的一片 talking head 的工作,输入为一张 reference image 和 一段音频,生成一段视频。EMO 这篇工作生成的视频结果,其视频生成结果稳定,帧间一致性...

March 4, 2024

Sora 是如何工作的?

OpenAI 于2024.2.16 发布了视频生成模型Sora,Sora可以生成时长1分钟的高清视频,其生成质量非常惊人。 Demo: https://cdn.openai.com/tmp/s/title_0.mp4 官网地址:Sora 技术报告:...

February 20, 2024

我的2023

疫情结束 在23年的元旦前后,随着国内的清零政策放开,疫情一波大爆发之后,新冠在23年从人们的生活中消散了。持续3年的疫情终于结束了。在23年...

February 13, 2024

Reivew: MobileDiffusion

本文主要介绍 Google 最新的一篇关于如何把 diffusion 模型 port 到移动端设备上的论文 MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices。google 的博客上有相关的英文blog:http...

February 6, 2024

Review: Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

这一篇关于 Animate Anyone 的读书笔记。Animate Anyone介绍了一种能够根据图像以及结合动作姿态序列生成一段动作视频的方法。 方法结构图 方法归纳为以...

January 11, 2024

活到35

年龄焦虑 35了,国内互联网公司有着35岁失业的说法,国内的考公也要求35岁以下。我想在国内从事互联网相关工作的绝大多数人都会有年龄方面的焦虑...

November 12, 2023

Review:Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack

本文提出一个基于latent diffusion框架的文生图模型Emu;利用小量~2000张高质量图片,对pre-trained模型进行qua...

October 9, 2023

Review: IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Modelsb

本文提出一种 Image Prompt Adapter 方案,实现了类似 Image Prompt的方案。从上图,我们可以看到通过IP-Adapter,我们可以实现(1)Image Varia...

October 9, 2023

GigaGAN文生图:Scaling up GANs for Text-to-Image Synthesis

这是一篇关于 https://arxiv.org/abs/2303.05511 的笔记。 近两年基于扩散概率模型和自回归模型的文生图大模型发展迅速。20,21年的SOTA生成网络GAN在这一波文生图大模型发展...

August 25, 2023

Stable Diffusion XL 技术报告

前言 这是一篇关于 **SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis 技术报告的中文翻译。 SDXL 是 Stability AI 继 SD 1.5, SD 2.0 之后发布的一个新的文生图模型。目前该模型在 reddit 上讨论还是蛮热烈的...

August 9, 2023