AI在线 AI在线

全新 GoT-R1 多模态模型发布:让 AI 画图更聪明,图像生成新纪元!

近日,来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。 这一全新的多模态大模型通过引入强化学习(RL),在视觉生成任务中显著提升了 AI 的语义和空间推理能力,成功应对复杂的文本提示生成高保真、语义一致的图像。 这一进展标志着图像生成技术的又一次飞跃。

近日,来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习(RL),在视觉生成任务中显著提升了 AI 的语义和空间推理能力,成功应对复杂的文本提示生成高保真、语义一致的图像。这一进展标志着图像生成技术的又一次飞跃。

目前,尽管现有的多模态大模型在根据文本提示生成图像方面已有显著进展,但在处理涉及精准空间关系和复杂组合的指令时,仍面临诸多挑战。GoT-R1正是为了解决这一问题而诞生的。与其前身 GoT 相比,GoT-R1不仅扩展了 AI 的推理能力,更赋予了它自主学习和优化推理策略的能力。

image.png

GoT-R1的核心在于其强化学习机制。团队通过设计一套全面有效的奖励机制,帮助模型在生成图像时更好地理解用户的复杂指令。这一机制涵盖了多个评估维度,包括生成图像的语义一致性、空间布局准确性和整体美学质量。更重要的是,GoT-R1还通过将推理过程可视化,使得模型能够更准确地评估图像生成的效果。

image.png

在经过全面的评估后,研究团队发现,GoT-R1在一项名为 T2I-CompBench 的基准测试中表现出色,尤其在处理复杂多层次指令时,展现了超越其他主流模型的能力。例如,在 “复杂” 基准测试中,GoT-R1的表现尤为突出,其强大的推理和生成能力使得这一模型在多个评估类别中取得了最高分。

GoT-R1的发布为多模态图像生成技术注入了新的活力,展现了 AI 在处理复杂任务时的无限可能性。随着技术的不断发展,未来的图像生成将会更加智能化和精准化。

论文:https://arxiv.org/pdf/2503.10639

相关资讯

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

可保护作品免遭 AI 训练,Adobe 推出 Content Authenticity 应用

Adobe 推出全新应用 Content Authenticity,用于保护创意工作者的作品署名权,即使有人截屏并在网络二次传播也不受影响。这款网页应用于今日面向公众开放测试,用户上传需要保护的图像,应用就能嵌入隐形元数据和添加“禁止 AI 训练”标签,帮助确认作品归属和保护作品免遭 AI 训练。
4/24/2025 9:32:18 PM
准泽(实习)

降低门槛,全平台应用,昇腾还会手把手地教你如何用AI

机器之心报道作者:泽南如何才能做到 AI 应用一次开发,全场景部署?昇腾给出了答案。如今的大多数 AI 应用程序都需要跑在多种类型的处理器上,覆盖数十个版本的操作系统,运行在从端侧到云计算集群的各种设备上。这样复杂的环境,对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流,昇腾发布的 CANN、MindSpore、MindX 等工具,可以让开发者实现「统一端边云,全端自动部署」,开启了机器学习开发的新时代,一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中,基础架构作为连接硬件与
3/19/2021 11:23:00 AM
机器之心
  • 1