VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time https://www.microsoft.com/en-us/research/project/vasa-1/ 微软的一篇关于 talking head 的工作,叫:VASA-1。VASA-1 是利用一段音频和一张照片,生成一段该照片说话的视频。 他的核心贡献...
Review_PuLID
本文介绍一篇关于人脸保ID的工作 PuLID: Pure and Lightning ID Customization via Contrastive Alignment 主要的贡献在于: (1)之前的保ID方法,在底座风格模型上加入人脸ID之后,会丢失底座模型的...
Review EMO
主页: EMO 简介: 阿里最新的一片 talking head 的工作,输入为一张 reference image 和 一段音频,生成一段视频。EMO 这篇工作生成的视频结果,其视频生成结果稳定,帧间一致性...
Sora 是如何工作的?
OpenAI 于2024.2.16 发布了视频生成模型Sora,Sora可以生成时长1分钟的高清视频,其生成质量非常惊人。 Demo: https://cdn.openai.com/tmp/s/title_0.mp4 官网地址:Sora 技术报告:...
我的2023
疫情结束 在23年的元旦前后,随着国内的清零政策放开,疫情一波大爆发之后,新冠在23年从人们的生活中消散了。持续3年的疫情终于结束了。在23年...
Reivew: MobileDiffusion
本文主要介绍 Google 最新的一篇关于如何把 diffusion 模型 port 到移动端设备上的论文 MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices。google 的博客上有相关的英文blog:http...
Review: Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation
这一篇关于 Animate Anyone 的读书笔记。Animate Anyone介绍了一种能够根据图像以及结合动作姿态序列生成一段动作视频的方法。 方法结构图 方法归纳为以...
活到35
年龄焦虑 35了,国内互联网公司有着35岁失业的说法,国内的考公也要求35岁以下。我想在国内从事互联网相关工作的绝大多数人都会有年龄方面的焦虑...
Review:Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack
本文提出一个基于latent diffusion框架的文生图模型Emu;利用小量~2000张高质量图片,对pre-trained模型进行qua...
Review: IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Modelsb
本文提出一种 Image Prompt Adapter 方案,实现了类似 Image Prompt的方案。从上图,我们可以看到通过IP-Adapter,我们可以实现(1)Image Varia...