CP0000 - 一只特立独行的猪

37

十年我的第一篇关于生日的文章是2015年写的，那年27岁，今年是2025年，10年过去了，现在37岁了。10年中，我每年过生日会写一篇以年纪...

Review FLUX.1 Kontext

src: “FLUX.1 Kontext: Flow Matching for In–Context Image Generation and Editing in Latent Space” (arXiv:2506.15742v2) 摘要 Black Forest Labs 提出一个新的生成模型：FLUX.1 Kontext。FLUX.1 Kontext 是一个面向图像...

劝君更尽一杯酒，西出阳关无故人。

劝君更尽一杯酒，西出阳关无故人。旺仔比我小一岁，我们从小学到高中一直在同一所学校读书。村里的小学每个年级只有一个班，我们是同班同学。班里还有...

36

成为孩子的父亲 2024年的年初，我们的孩子出生了，那是一个冬日的早晨，太阳非常好，阳光透过窗户洒在妈妈和宝宝的床上，在那个三九天异常寒冷的早...

review: OminiControl: Minimal and Universal Control for Diffusion Transformer

本文提出了一种在DiT框架下的用图像作为控制条件的图像生成框架。相较于之前的方案（比如 controlnet 等），本文的方法优点：更加高效，注入图像条件的分支只...

Review OmniGen: Unified Image Generation

OmniGen： A new diffusion model for unified image generation. OmniGen no longer requires additional modules such as ControlNet or IP-Adapter to process diverse control conditions. https://github.com/VectorSpaceLab/OmniGen https://arxiv.org/abs/2409.11340 简介本文推出一种新的统一的文生图扩散模型：OmniGen. 相较于之前的 S...

Review_VASA-1

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time https://www.microsoft.com/en-us/research/project/vasa-1/ 微软的一篇关于 talking head 的工作，叫：VASA-1。VASA-1 是利用一段音频和一张照片，生成一段该照片说话的视频。他的核心贡献...

Review_PuLID

本文介绍一篇关于人脸保ID的工作 PuLID: Pure and Lightning ID Customization via Contrastive Alignment 主要的贡献在于：（1）之前的保ID方法，在底座风格模型上加入人脸ID之后，会丢失底座模型的...

Review EMO

主页： EMO 简介：阿里最新的一片 talking head 的工作，输入为一张 reference image 和一段音频，生成一段视频。EMO 这篇工作生成的视频结果，其视频生成结果稳定，帧间一致性...

Sora 是如何工作的？

OpenAI 于2024.2.16 发布了视频生成模型Sora，Sora可以生成时长1分钟的高清视频，其生成质量非常惊人。 Demo: https://cdn.openai.com/tmp/s/title_0.mp4 官网地址：Sora 技术报告：...