AI在线 AI在线

图像生成

刚刚,字节登顶世界最强图像AI!一手实测原生4K、10图融合,全网玩疯

谷歌Nano Banana一夜爆火之后,各种邪修玩法儿,至今让全网意犹未尽。 等距视角、多图合成、老照片修复、3D手办.......创意脑洞大开,全网玩疯。 谁曾想,短短半个月后,大洋彼岸就杀出来了一个最强逆袭者!
9/12/2025 11:00:09 AM

腾讯开源混元Image 2.1:2K高清+完美文字嵌入,图文天花板来了

今天凌晨,腾讯开源最新图像模型混元Image 2.1。 混元Image 2.1支持原生2K分辨率图像和1000 token的超长篇复杂提示词,并且在文本语义理解和文字嵌入方面非常强几乎完美,能将中英文无缝写入到图像中,很适用于产品封面、插画、海报设计等专业场景此外,腾讯还开源了基于MeanFlow的加速版模型权重,该版本可将推理步数从100步大幅缩减至仅8步,以及业内首个工业级提示词改写模型 PromptEnhancer,能对提示词进行优化,帮助用户生成更细腻、富有表现力的图像。 开源地址: 2.1Github: 2.1?tab=readme-ov-file在线体验: 2.1案例目前,混元Image 2.1已经可以使用,下面给大家展示一下它的生成效果。
9/10/2025 9:35:14 AM

设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25

建筑平面图是AEC(建筑、工程、施工)领域的核心 「语言」,贯穿设计思想草绘、方案交流与落地执行全流程。 而住宅作为人们日常生活的基本空间载体,其平面图更是在建筑设计早期发挥着核心作用。 然而,传统平面图设计流程高度依赖建筑师个人经验,存在效率低、反馈慢、缺乏智能辅助等问题。
9/8/2025 8:54:00 AM

字节开源图像生成“六边形战士”,一个模型搞定人物/主体/风格保持

图像生成中的多指标一致性问题,被字节团队解决了! 字节UXO团队设计并开源了统一框架USO,让看上去不关联的任务相互促进,实现风格迁移和主体保持单任务和组合任务的SOTA。 USO通过单一框架能统一之前那些看似孤立的任务包括主体、身份保持和风格化编辑,参考图风格迁移,同时保持主体和风格参考,甚至更抽象复杂的多风格迁移,是实打实的六边形战士。
9/5/2025 9:07:00 AM

谷歌「最强图像模型」横扫一切!3毛钱P图打懵OpenAI,PS要不存在了

刚刚,谷歌正式发布最先进的图像模型,Gemini 2.5 Flash Image。 如果说它的另一个名字,nano-banana,你就一定知道了! 「最强图像模型」这个称号可以说是被全球网友亲自认定。
8/27/2025 1:38:13 PM

一张图0.1秒生成上半身3D化身!清华IDEA新框架入选ICCV 2025

一张图就能创建上半身动作视频,方法还入选了ICCV 2025! 来自清华大学、IDEA(粤港澳大湾区数字经济研究院)的研究人员提出新框架GUAVA,不需要多视角视频、不需要针对不同个体单人训练,仅需0.1秒就能从单图创建一个上半身3D化身。 通常来说,创建逼真且富有表现力的上半身人体化身(如包含细致面部表情和丰富手势),在电影、游戏和虚拟会议等领域具有重要价值。
8/21/2025 11:06:55 AM

从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?

本文由上海交通大学,上海人工智能实验室、北京航空航天大学、中山大学和商汤科技联合完成。 主要作者包括上海交通大学与上海人工智能实验室联培博士生康恒锐、温子辰,上海人工智能实验室实习生文思为等。 通讯作者为中山大学副教授李唯嘉和上海人工智能实验室青年科学家何聪辉。
8/11/2025 5:58:00 PM

实测谷歌AI故事书,我实现漫画和绘本自由了

谷歌Gemini又双叒叕出新工具了,只需要30s左右,就能让AI帮你生成一篇10页的故事书,还是免费的。 并且支持中文,生成的内容也相当有趣。 这一次带来的是能够一键生成故事书的StoryBook:只需描述你想要的故事,如果喜欢的话还可以添加文件和图片,Gemni将会创造一本独特的10页故事书。
8/11/2025 8:45:00 AM

联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像

本论文作者团队来自腾讯混元X组,共同一作为耿子钢和王逸冰,项目Lead为张小松,通讯作者为腾讯混元团队杰出科学家胡瀚,Swin Transformer作者。 在图像生成领域,自回归(Autoregressive, AR)模型与扩散(Diffusion)模型之间的技术路线之争始终未曾停歇。 大语言模型(LLM)凭借其基于「预测下一个词元」的优雅范式,已在文本生成领域奠定了不可撼动的地位。
8/10/2025 1:07:00 PM
机器之心

谷歌深夜放出「创世引擎」Genie 3!一句话秒生宇宙,终极模拟器觉醒

全球最强「世界AI模拟器」今夜诞生! 刚刚,谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模拟出史无前例的丰富交互环境。 一句话,Genie 3即可生成一个动态世界。
8/6/2025 9:17:24 AM

深入探索 GPT-4o:图像生成的多面手

大家好,我是肆〇柒。 图像生成技术正以前所未有的速度演进,从早期的 GANs(生成对抗网络)到如今的扩散模型,每一次技术迭代都为视觉创作领域注入了新的活力。 而近期,GPT-4o 发布的生图能力,真是火出圈,甚至带火了吉卜力风格。
7/23/2025 9:32:02 AM
肆零柒

「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机

众所周知,第 42 届国际机器学习大会(ICML)将于 7 月 13 日至 19 日在加拿大温哥华盛大举行。 在生成式 AI 领域,最新的前沿热点已经转向探索更高质量,更稳定,更简洁,更通用的模型形态。 流匹配(Flow Matching)技术正完美的踩中了每一个热点要素。
7/14/2025 9:12:00 AM

ICCV2025 | 多视图生成新范式-利用自回归模型探索多视图生成

本文第一作者包括北京大学博士生胡珈魁与清华大学硕士生杨羽霄;通讯作者为北京大学助理教授卢闫晔与(前)百度视觉技术部刘家伦。 本文介绍并开发了一种自回归生成多视图图像的方法 MVAR 。 其目的是确保在生成当前视图的过程中,模型能够从所有先前的视图中提取有效的引导信息,从而增强多视图的一致性。
7/14/2025 8:42:00 AM

ICML 2025 Oral!北大和腾讯优图破解AI生成图像检测泛化难题:正交子空间分解

随着 OpenAI 推出 GPT-4o 的图像生成功能,AI 生图能力被拉上了一个新的高度,但你有没有想过,这光鲜亮丽的背后也隐藏着严峻的安全挑战:如何区分生成图像和真实图像? 尽管目前有很多研究已在尝试解决这个挑战,然而这个挑战深层次的泛化难题一直没有得到合理的探究,生成图像和真实图像的区别真的是简单的 「真假二分类 」吗? 近日,北京大学与腾讯优图实验室等机构的研究人员针对这一泛化难题做了一些深层次的探究,研究表明 AI 生成图像检测任务远比 「真假二分类 」复杂!
7/14/2025 8:39:00 AM

好玩!AI“穿越”新玩法火了:根据12岁照片生成23岁的你

中国有句古话,“三岁看大,七岁看老”——现在,AI技术把这句话变得更直观了。 外国一网友让ChatGTP根据她12岁的照片推测她23岁的样子,结果居然还挺准的? 新玩法一出,很多人兴致勃勃地参与到了这场“穿越”里,甚至脑洞大开地尝试了很多新奇玩法。
7/13/2025 12:37:00 PM
闻乐

扩散语言模型写代码!速度比自回归快10倍

谁说扩散模型只能生成图像和视频? 现在它们能高质量地写代码了,速度还比传统大模型更快! Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury。
7/10/2025 2:54:13 PM

谢赛宁团队新作:不用提示词精准实现3D画面控制

曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。 但你有没有想过拖动方向键来控制画面? 像这样,拖动方向键(或用鼠标拖动滑块)让画面里的物体左右移动:还能旋转角度:缩放大小:这一神奇操作就来自于谢赛宁团队新发布的 Blender Fusion框架,通过结合图形工具 (Blender) 与扩散模型,让视觉合成不再仅仅依赖文本提示,实现了精准的画面控制与灵活操作。
7/4/2025 8:52:00 AM

GitHub一周2000星!国产统一图像生成模型神器升级,理解质量双up,还学会了“反思”

国产开源统一图像生成模型,技术重大升级! 新进展来自智源研究院:一模支持文生图、图像编辑、主题驱动图像生成的OmniGen,2.0新版本正式发布。 具体来说,OmniGen2在保持简洁架构的基础上,显著增强了上下文理解能力、指令遵循能力和图像生成质量。
7/3/2025 3:01:26 PM