AI在线 AI在线

WithAnyone重磅开源:这可能是你见过最自然的AI合照模型

和任何人,去任何地方! 复旦大学携手阶跃星辰打破 “复制粘贴” 魔咒,重磅推出全新 AI 合照生成模型 WithAnyone —— 只需上传照片,就能一键生成自然、真实、毫无违和感的 AI 合照! WithAnyone 是什么?
图片

和任何人,去任何地方!复旦大学携手阶跃星辰打破 “复制粘贴” 魔咒,重磅推出全新 AI 合照生成模型 WithAnyone —— 只需上传照片,就能一键生成自然、真实、毫无违和感的 AI 合照!

图片

WithAnyone 是什么?

WithAnyone 是一种个性化 AI 合照生成方法:给定一个人的一张照片,WithAnyone 可以生成 ta 的各种角度、各种表情;给定几个人的各一张照片,WithAnyone 可以让他们同框,生成一张毫无违和感的 AI 合照。

以往的方法,无论是现象级的 InstantID,还是火出圈的 PuLID,都面临着一个困境:给它什么样的表情、角度,它就生成什么表情、角度,做不到一点变化。

图片

而 WithAnyone 打破了这一魔咒!真的可以拿 ID 一致性与 ID 可控性双料冠军。

图片

WithAnyone 效果如何?

空口无凭,且看效果!

图片

还有多人合照:

图片

真可谓是相当惊艳了!

我们也试了一下更多人的场景:

图片图片

三姐妹戴着同款墨镜其乐融融,三兄弟西装革履装酷耍帅。

过去的模型想做到生成得像,全靠 “复制粘贴 “,参考图的表情神态、头部姿态,照搬到生成图上,没有一点变化。而 WithAnyone 生成的场景真正地做到了人物一致的同时,大伙和谐同框!

当前 ComfyUI 版本已经上线,工作流也有提供,可以轻松部署!

图片

WithAnyone 如何打破魔咒?

正所谓发现问题,比解决问题更重要。

图片

WithAnyone 的研究团队正是发现了这一问题:AI 人像生成,生成得越来越像,甚至过于地像了 — 相似度甚至远远大于同一个人的不同真实照片!正所谓过犹不及,这便是他们要解决的问题。

要量化这个问题,团队首先提出了 MultiID-Bench,与配套的 “复制粘贴 “指标

图片

他们把 “生成结果到参考输入的距离” 减去 “生成结果到目标输出的距离” 作为复制粘贴的衡量,并发现当前的各种方法,落入了一个越像,就越复制粘贴的魔咒:他们清晰地形成了一条拟合直线。

图片

为了突破这个魔咒,研究团队直面最本质的问题:数据与训练

以往的 AI 个性化生成,由于同一个人的多视角数据缺乏,往往采用 “重建” 的训练方案:参考输入图,也是监督目标。而 WithAnyone 的研究团队则收集了一个五十万张多人合照,并为每张上的每个人,配了上百张不同角度、表情、光照的参考图!另外还有百万张未配对的合照,也一同并入了训练数据。

这次的开源真的很重磅,模型、Benchmark、数据集,三花聚鼎。

图片

有了如此强悍的训练数据,便可定制化训练流程。研究团队先是通过传统重建训练,训练出强大的基本能力,再通过成对数据训练,与高质量数据微调,最终得到现在 WithAnyone 模型。

当然,模型结构和训练目标上都有重大创新,我们总结了一下要点:

  • 参考图像编码双通道:每个参考通过人脸识别网络(获取身份判别向量)与通用图像编码器(捕获中层视觉特征)分别编码;人脸嵌入仅作用于对应人脸区域,避免跨脸信息泄露。

  • 对比式学习:把 “正确的同一身份但风格 / 姿态不同的样本” 拉近,把 “不同身份的样本” 推远;通过大量负样本,模型学到 “识别同一人而非重复一张脸的能力”。

  • 度量与优化目标:除了常用的扩散 / 重构损失外,加入 ID-contrastive 与对齐到 ground-truth 的 ID 损失,平衡 “相似” 与 “变化” 的张力。

WithAnyone 如何体验?

WithAnyone 已经全面开源。团队提供了:代码、模型权重、数据集样例与评测基准(MultiID-Bench) 的公开链接(论文内 project page / Hugging Face / GitHub),便于社区复现与扩展。还有 ComfyUI 支持,期待社区开发出更多玩法!

  • GitHub: https://github.com/Doby-Xu/WithAnyone 

  • ComfyUI 仓库: okdalto/ComfyUI-WithAnyone: ComfyUI version of WithAnyone

  • 项目主页: https://doby-xu.github.io/WithAnyone/ 

  • 在线 Demo: https://huggingface.co/spaces/WithAnyone/WithAnyone_Demo  

WithAnyone 不只是一次技术突破,更是一次让 AI “懂得同框” 的尝试,希望这项技术能让每一张 AI 合照都充满温度与故事。从今天起,和任何人,去任何地方 —— 用 WithAnyone,拍下属于你的合照!

相关资讯

告别微软,姜大昕带领这支精英团队攀登Scaling Law,万亿参数模型已有预览版

攀登 Scaling Law,打造万亿参数大模型,前微软 NLP 大牛姜大昕披露创业路线图。前段时间,OpenAI 科学家 Jason Wei 的一份作息时间表引发了广泛关注。表中有很多让人看了会心一笑的梗,比如「9 点 45:背诵 OpenAI 章程,向最优化的神祷告,学习《苦涩的教训》」「10 点用 Google Meet 开会,讨论怎么在更多数据上训练更大的模型」「11 点写代码,用来在更多数据上训练更大的模型」「1 点:实操,在更多数据上训练更大的模型」「4 点:对用更多数据训练的更大的模型进行提示工程」…
4/1/2024 3:05:00 PM
机器之心

揭秘:阶跃星辰万亿MoE+多模态大模型矩阵亮相

在 2024 年世界人工智能大会的现场,很多人在一个展台前排队,只为让 AI 大模型给自己在天庭「安排」一个差事。具体流程是这样的:首先, AI 会管你要一张个人照片,并参考《大闹天宫》画风生成你在仙界的形象照。接下来,它会引导你进入一个交互式的剧情选择和交谈环节(其实是 AI 大模型自己编的剧情),然后根据你的选择和回答评估出你的 MBTI 人格类型,并根据这个类型为你在天庭「安排」一个差事。 当然,除了现场排队,你还可以在线体验(扫描下方二维码即可)。这是大模型创业公司阶跃星辰与上影合作的 AI 互动体验《AI
7/4/2024 6:29:00 PM
机器之心

国行 iPhone 16 相机控制也接入视觉智能了!可一键调用阶跃星辰智能助手「跃问」

国内 iPhone 16 用户终于也能通过相机控制键调用视觉智能功能了,这意味着这一代苹果新机主打的 Apple 智能(Apple Intelligence)不再只是空话。 今年 iPhone 16 发布时,最令国内果粉遗憾的就是目前海外版 Apple 智能接入了 OpenAI 的能力,国内用户暂时无法体验和使用。 11 月 18 日消息,国内头部大模型创业公司阶跃星辰旗下产品「跃问」,已经将其智能视觉搜索功能「拍照问」接入了 iPhone 16 相机控制按钮,支持用户一键调用。
11/18/2024 6:26:00 PM
我在思考中