AI在线 AI在线

字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体

UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。

AI在线从豆包大模型团队获悉,UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。

字节 Seed 开源 UI-TARS-1.5:基于视觉-语言模型构建的多模态智能体

有关的链接如下:

  • GitHub:https://github.com/bytedance/UI-TARS

  • Website:https://seed-tars.com/

  • Arxiv:https://arxiv.org/abs/2501.12326

UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS,通过强化学习进一步增强了模型的高阶推理能力,使模型能够在“行动”前先进行“思考”

该版本的模型中,团队还展示了一个新的愿景:以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比,游戏更多依赖直观的、常识性的推理,并较少依赖专业知识,因此,游戏通常是评估和提升未来模型通用能力的理想测试场景。

据介绍,UI-TARS 是一个原生 GUI 智能体,具备真实操作电脑和手机系统的能力,同时,还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作,基于团队在四个维度的技术探索:

  • 视觉感知增强:依托大规模界面截图数据,模型可理解元素的语义与上下文,形成精准描述。

  • System 2 推理机制:在动作前生成“思维(thought)”,支持复杂任务的多步规划与决策。

  • 统一动作建模:构建跨平台标准动作空间,通过真实轨迹学习提升动作可控性与执行精度。

  • 可自我演化的训练范式:通过自动化的交互轨迹采集与反思式训练,模型持续从错误中改进,适应复杂环境变化。

相关资讯

掌控 AI 智能体自主性:五级框架下的人机协作之道

大家好,我是肆〇柒,在AI飞速发展的时代,AI 智能体自主性已成为一个备受瞩目的焦点。 一方面,它能够为我们带来前所未有的创新应用,极大提升工作效率和生活便利性;另一方面,若不当使用,也可能引发一系列难以预料的风险。 随着大型语言模型(LLM)等前沿 AI 技术的飞速进步,AI 智能体的自主性不再是停留在科幻小说中的情节,它已逐渐走进现实,引起了大家的广泛关注和深入探讨。
7/29/2025 9:24:21 AM
肆零柒

字节跳动发布 AI 中文 IDE“Trae”:内置 GPT-4o,可帮助自动化开发

其支持AI问答、代码自动补全、基于Agent的AI编程等功能,可以帮助程序员自动化完成开发任务,并在一些项目中可以实现端到端开发,用户提问后能够直接生成完整的代码项目。
1/20/2025 5:25:31 PM
清源

字节跳动回应“今年资本支出超 1500 亿元”:消息不准确

据路透社今日援引知情人士消息称,字节跳动今年计划投入超 1500 亿元人民币用于资本支出,其中大部分将用于AI领域。针对该报道,字节跳动回应称:“关于我们支出的匿名消息不准确。”
1/23/2025 6:31:05 PM
清源
  • 1