腾讯混元图像 2.0 模型发布：毫秒级响应，一边打字一边出图

作者：汪淼 2025-05-16 05:21

在同类商业产品每张图推理速度需要 5 到 10 秒的情况下，腾讯混元号称可实现毫秒级响应，支持用户可以一边打字或者一边说话一边出图，改变了传统“抽卡 — 等待 — 抽卡”的方式。

感谢腾讯混元图像 2.0 模型（Hunyuan Image2.0）今日正式发布，在腾讯混元官方网站上线，并对外开放注册体验。

腾讯混元图像 2.0 模型主要有两大特点：实时生图、超写实画质。

相比前代模型，腾讯混元图像 2.0 模型参数量提升了一个数量级，得益于超高压缩倍率的图像编解码器以及全新扩散架构，其生图速度“显著快于行业领先模型”，在同类商业产品每张图推理速度需要 5 到 10 秒的情况下，腾讯混元号称可实现毫秒级响应，支持用户可以一边打字或者一边说话一边出图，改变了传统“抽卡 — 等待 — 抽卡”的方式。

banner

除了速度快以外，腾讯混元图像 2.0 模型图像生成质量提升明显，通过强化学习等算法以及引入大量人类美学知识对齐，生成的图像号称可避免 AIGC 图像中的“AI 味”。

在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准 GenEval（Geneval Bench）上，腾讯混元图像 2.0 模型准确率超过 95%，远超其他同类模型。

AI在线附图片示例如下：

人像摄影风格

动物特写

复古摄影

动漫风格

真实人物风格

本次模型升级还带来了发布了实时绘画板功能，基于模型的实时生图能力，用户在绘制线稿或调整参数时，预览区同步生成上色效果，突破了传统“绘制-等待-修改”的线性流程，可助力专业设计师的创作。

实时绘画板支持多图融合，用户上传多图后，可将多个草图叠加至同一画布自由创作，经过 AI 自动协调透视与光影，按照提示词内容生成融合图像，进一步丰富了 AI 生图的交互体验。

腾讯混元原生多模态图像生成大模型已经在路上，腾讯表示，新模型在多轮图像生成、实时交互体验等方面有突出表现。

谷歌测试 Nano Banana2Flash 图像模型，主打极致速度与高性价比

继发布高端图像模型 Nano Banana Pro 后，谷歌正秘密测试其 Gemini Flash 系列的新成员——Nano Banana2Flash。该模型由知名科技博主 MarsForTech 在 X 平台上率先曝光，作为谷歌目前速度最快的生成式 AI 图像模型，它旨在为用户提供更实惠、更高效的视觉生成体验。虽然在推理深度、细节精确度以及处理极其复杂的创意任务（如精密原型图或高精度图表）方面，Nano Banana2Flash 的性能上限不及定位高端的 Nano Banana Pro，但它继承了 Pro 版本对现实世界知识的理解能力，并显著优化了生成逻辑。

1/5/2026 3:06:54 PM AI在线

Meta 推 WebSSL 模型：探索 AI 无语言视觉学习，纯图训练媲美 OpenAI CLIP

科技媒体 marktechpost 发布博文，报道称 Meta 公司发布 WebSSL 系列模型，参数规模从 3 亿到 70 亿，基于纯图像数据训练，旨在探索无语言监督的视觉自监督学习（SSL）的潜力。以 OpenAI 的 CLIP 为代表，对比语言-图像模型已成为学习视觉表征的默认选择，在视觉问答（VQA）和文档理解等多模态任务中表现突出。不过受到数据集获取的复杂性和数据规模的限制，语言依赖面临诸多挑战。

4/25/2025 11:55:46 AM 故渊

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM AI在线

腾讯混元图像 2.0 模型发布：毫秒级响应，一边打字一边出图

相关资讯

谷歌测试 Nano Banana2Flash 图像模型，主打极致速度与高性价比

Meta 推 WebSSL 模型：探索 AI 无语言视觉学习，纯图训练媲美 OpenAI CLIP

调查：超72% 的企业选择 AI 工具时最看重易用性