字节 Seed 开源 UI-TARS-1.5：基于视觉-语言模型构建的多模态智能体

作者：清源 2025-04-18 07:48

UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。

AI在线从豆包大模型团队获悉，UI-TARS-1.5 昨日正式发布并开源。这是一款基于视觉-语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。

有关的链接如下：

GitHub：https://github.com/bytedance/UI-TARS
Website：https://seed-tars.com/
Arxiv：https://arxiv.org/abs/2501.12326

UI-TARS-1.5 基于字节此前提出的原生智能体方案 UI-TARS，通过强化学习进一步增强了模型的高阶推理能力，使模型能够在“行动”前先进行“思考”。

该版本的模型中，团队还展示了一个新的愿景：以游戏为载体来增强基础模型的推理能力。与数学、编程等领域相比，游戏更多依赖直观的、常识性的推理，并较少依赖专业知识，因此，游戏通常是评估和提升未来模型通用能力的理想测试场景。

据介绍，UI-TARS 是一个原生 GUI 智能体，具备真实操作电脑和手机系统的能力，同时，还可操控浏览器、完成复杂交互任务。UI-TARS-1.5 能够实现精准 GUI 操作，基于团队在四个维度的技术探索：

视觉感知增强：依托大规模界面截图数据，模型可理解元素的语义与上下文，形成精准描述。
System 2 推理机制：在动作前生成“思维（thought）”，支持复杂任务的多步规划与决策。
统一动作建模：构建跨平台标准动作空间，通过真实轨迹学习提升动作可控性与执行精度。
可自我演化的训练范式：通过自动化的交互轨迹采集与反思式训练，模型持续从错误中改进，适应复杂环境变化。

为 AI Agent 行为立“规矩”——字节跳动提出 Jeddak AgentArmor 智能体安全框架

技术报告地址： AI Agent 时代已来，但“失控”风险近在眼前继 LLM（大语言模型）之后，AI Agent（智能体）正掀起新一轮的技术革命。它们不再仅仅是语言的“复读机”，而是能够自主理解、规划并执行现实世界任务的“行动派”。从自动预订旅行、管理复杂的云资源，到处理成千上万封邮件，AI Agent 展现出的巨大潜力，预示着一个由 AI 驱动的自动化新纪元。

8/29/2025 12:10:00 AM

掌控 AI 智能体自主性：五级框架下的人机协作之道

大家好，我是肆〇柒，在AI飞速发展的时代，AI 智能体自主性已成为一个备受瞩目的焦点。一方面，它能够为我们带来前所未有的创新应用，极大提升工作效率和生活便利性；另一方面，若不当使用，也可能引发一系列难以预料的风险。随着大型语言模型（LLM）等前沿 AI 技术的飞速进步，AI 智能体的自主性不再是停留在科幻小说中的情节，它已逐渐走进现实，引起了大家的广泛关注和深入探讨。

7/29/2025 9:24:21 AM 肆零柒

字节跳动发布 AI 中文 IDE“Trae”：内置 GPT-4o，可帮助自动化开发

其支持AI问答、代码自动补全、基于Agent的AI编程等功能，可以帮助程序员自动化完成开发任务，并在一些项目中可以实现端到端开发，用户提问后能够直接生成完整的代码项目。

1/20/2025 5:25:31 PM 清源

字节 Seed 开源 UI-TARS-1.5：基于视觉-语言模型构建的多模态智能体

相关资讯

为 AI Agent 行为立“规矩”——字节跳动提出 Jeddak AgentArmor 智能体安全框架

掌控 AI 智能体自主性：五级框架下的人机协作之道

字节跳动发布 AI 中文 IDE“Trae”：内置 GPT-4o，可帮助自动化开发