Review_hunyuan_video

review: HunyuanVideo: A Systematic Framework For Large Video Generation Model Training https://github.com/Tencent/HunyuanVideo 腾讯开源的一个 13B 的视频生成模型 HunyuanVideo. 生成的视频帧率是 24fps,分辨率为720p。视频质量相较于目前其他的开源视频生成模...

December 27, 2024

36

成为孩子的父亲 2024年的年初,我们的孩子出生了,那是一个冬日的早晨,太阳非常好,阳光透过窗户洒在妈妈和宝宝的床上,在那个三九天异常寒冷的早...

December 23, 2024

review: OminiControl: Minimal and Universal Control for Diffusion Transformer

本文提出了一种在DiT框架下的用图像作为控制条件的图像生成框架。相较于之前的方案(比如 controlnet 等),本文的方法优点: 更加高效,注入图像条件的分支只...

November 26, 2024

Review OmniGen: Unified Image Generation

OmniGen: A new diffusion model for unified image generation. OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. https://github.com/VectorSpaceLab/OmniGen https://arxiv.org/abs/2409.11340 简介 本文推出一种新的统一的文生图扩散模型:OmniGen. 相较于之前的 S...

November 25, 2024

Review_VASA-1

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time https://www.microsoft.com/en-us/research/project/vasa-1/ 微软的一篇关于 talking head 的工作,叫:VASA-1。VASA-1 是利用一段音频和一张照片,生成一段该照片说话的视频。 他的核心贡献...

May 20, 2024

Review_PuLID

本文介绍一篇关于人脸保ID的工作 PuLID: Pure and Lightning ID Customization via Contrastive Alignment 主要的贡献在于: (1)之前的保ID方法,在底座风格模型上加入人脸ID之后,会丢失底座模型的...

April 30, 2024

Review EMO

主页: EMO 简介: 阿里最新的一片 talking head 的工作,输入为一张 reference image 和 一段音频,生成一段视频。EMO 这篇工作生成的视频结果,其视频生成结果稳定,帧间一致性...

March 4, 2024

Sora 是如何工作的?

OpenAI 于2024.2.16 发布了视频生成模型Sora,Sora可以生成时长1分钟的高清视频,其生成质量非常惊人。 Demo: https://cdn.openai.com/tmp/s/title_0.mp4 官网地址:Sora 技术报告:...

February 20, 2024

我的2023

疫情结束 在23年的元旦前后,随着国内的清零政策放开,疫情一波大爆发之后,新冠在23年从人们的生活中消散了。持续3年的疫情终于结束了。在23年...

February 13, 2024

Reivew: MobileDiffusion

本文主要介绍 Google 最新的一篇关于如何把 diffusion 模型 port 到移动端设备上的论文 MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices。google 的博客上有相关的英文blog:http...

February 6, 2024