AI在线 AI在线

苹果发布全新多模态 AI 模型 UniGen 1.5,实现图像理解、生成与编辑三合一

近日,苹果研究团队推出了最新的多模态 AI 模型 UniGen1.5,标志着图像处理技术的一次重要突破。 该模型不仅能够理解图像,还能生成和编辑图像,这三大功能被成功整合在一个系统中,显著提升了工作效率。 与传统方法不同,UniGen1.5采用了统一框架,能够同时完成图像理解、生成和编辑。

近日,苹果研究团队推出了最新的多模态 AI 模型 UniGen1.5,标志着图像处理技术的一次重要突破。该模型不仅能够理解图像,还能生成和编辑图像,这三大功能被成功整合在一个系统中,显著提升了工作效率。

与传统方法不同,UniGen1.5采用了统一框架,能够同时完成图像理解、生成和编辑。研究人员指出,这种集成的设计使得模型在生成图像时,可以充分利用其强大的图像理解能力,从而提供更高质量的视觉输出。

image.png

在图像编辑方面,UniGen1.5创新性地引入了 “编辑指令对齐” 技术。该技术通过要求模型首先根据原图和指令生成详细的文本描述来捕捉用户的编辑意图,而不是直接修改图像。这种 “先想后画” 的方法有效提高了模型对复杂修改请求的理解和执行准确性。

此外,UniGen1.5在强化学习方面也取得了显著进展。研究团队设计了一种统一的奖励系统,能够同时应用于图像生成和编辑的训练。这种机制克服了编辑任务中质量标准不一致的问题,从而使得模型在处理各种视觉任务时保持高水平的表现。

在多项行业标准测试中,UniGen1.5展现出了强劲的竞争力。在 GenEval 和 DPG-Bench 测试中,该模型分别取得了0.89和86.83的高分,远超 BAGEL 和 BLIP3o 等其他热门模型。在专门的图像编辑测试 ImgEdit 中,UniGen1.5的得分为4.31,不仅超越了开源模型 OminiGen2,还与一些专有闭源模型如 GPT-Image-1表现相当。

尽管 UniGen1.5表现出色,但研究人员也意识到该模型在某些方面仍有改进空间。例如,模型在生成图像中的文字时容易出现错误,此外,在特定编辑场景中,模型可能会导致主体特征的漂移,例如动物的毛发纹理和颜色偏差。未来,苹果团队将继续致力于优化这些问题。

论文:https://arxiv.org/abs/2511.14760

划重点:  

🌟 UniGen1.5是苹果最新推出的多模态 AI 模型,集成了图像理解、生成和编辑功能。  

🛠️ 该模型通过 “编辑指令对齐” 技术提高了图像编辑的准确性,有效捕捉用户意图。  

📊 在行业测试中,UniGen1.5的表现显著优于其他热门模型,显示出强大的竞争力。

相关资讯

图像效果转换技术LBM:一键移除路人甲,还可调整光照

图像效果转换技术LBM:一键移除路人甲,还可调整光照

科技界又迎来一位图像处理领域的重量级选手——LBM(Latent Bridge Matching,潜在桥梁匹配)。 这款由 gojasper 团队倾力打造的神奇工具,正如其名,仿佛一座无形的桥梁,在图像的潜在空间中巧妙穿梭,实现了令人惊叹的图像效果转换。 LBM 效率惊人,只需“一步到位”,便能达成诸多复杂的图像编辑任务。
3/17/2025 9:13:00 AM AI在线
Ollama推出全新多模态AI引擎,推理性能显著提升

Ollama推出全新多模态AI引擎,推理性能显著提升

前不久,Ollama 宣布推出一款全新的多模态 AI 引擎,这款引擎的研发是独立于原有的 llama.cpp 框架进行的,标志着公司在人工智能领域迈出了重要一步。 这一引擎是基于 Golang 编程语言开发,旨在大幅提高本地推理的精度,同时增强大型图像处理的能力。 新引擎的亮点在于其引入了图像处理元数据、KVCache 优化及图像缓存功能。
5/19/2025 10:01:06 AM AI在线
聚类精度超96%,机器学习新算法可实现更高脑机接口性能

聚类精度超96%,机器学习新算法可实现更高脑机接口性能

编辑 | 萝卜皮使用多个电极记录神经元活动已被广泛用于了解大脑的功能机制。增加电极数量使科学家能够解码更多种类的功能。然而,由于硬件资源有限和不可避免的热组织损伤,处理大量多通道电生理数据仍然具有挑战性。在这里,韩国大邱庆北科学技术院(DGIST,Daegu Gyeongbuk Institute of Science & Technology)的研究团队提出了基于机器学习(ML)的高频神经元尖峰从二次采样的低频信号重建。受到图像处理中高频恢复和超分辨率之间等效性的启发,研究人员将 Transformer ML 模
2/1/2024 11:46:00 AM ScienceAI