AI在线 AI在线

图像模型

腾讯混元图像 2.0 模型发布:毫秒级响应,一边打字一边出图

在同类商业产品每张图推理速度需要 5 到 10 秒的情况下,腾讯混元号称可实现毫秒级响应,支持用户可以一边打字或者一边说话一边出图,改变了传统“抽卡 — 等待 — 抽卡”的方式。
5/16/2025 5:21:14 PM
汪淼

Meta 推 WebSSL 模型:探索 AI 无语言视觉学习,纯图训练媲美 OpenAI CLIP

科技媒体 marktechpost 发布博文,报道称 Meta 公司发布 WebSSL 系列模型,参数规模从 3 亿到 70 亿,基于纯图像数据训练,旨在探索无语言监督的视觉自监督学习(SSL)的潜力。 以 OpenAI 的 CLIP 为代表,对比语言-图像模型已成为学习视觉表征的默认选择,在视觉问答(VQA)和文档理解等多模态任务中表现突出。 不过受到数据集获取的复杂性和数据规模的限制,语言依赖面临诸多挑战。
4/25/2025 11:55:46 AM
故渊
  • 1