AI在线 AI在线

理论

开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章

智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。 近期,普林斯顿大学 AI Lab 推出了 Alita——一个秉持「极简即是极致复杂」哲学的通用智能体,通过「最小化预定义」与「最大化自我进化」的设计范式,让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。 论文标题:ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION论文链接::: 目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩,一举超越 OpenAI Deep Research 和 Manus 等知名智能体,成为通用智能体新标杆。
6/5/2025 8:46:00 AM

重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍

来自清华大学交叉信息院和蚂蚁技术研究院的联合团队,正式开源全异步强化学习训练系统 —— AReaL-boba² (AReaL v0.3)。 作为 AReaL 里程碑版本 AReaL-boba 的重磅升级,AReaL-boba² (正式全名:A-ReaL-double-boba) 坚持 boba 系列 “全面开源、极速训练、深度可定制” 的开发理念,再次加量:除了更全的功能和更详细的文档说明,更以全异步 RL 为核心,发布 SOTA 代码模型,全面奔向 Agentic RL:🚀 效率再突破: 全面实现异步 RL 训练,完全解耦模型生成与训练,效果不变的前提下训练速度对比上一版本最高提升 2.77 倍,GPU 资源利用率大幅优化。 📚 上手零门槛: 新增详细教程 (Step-by-Step Tutorials) 和深度文档 (Comprehensive Documentation),覆盖安装、核心概念、算法 / 模型定制化到问题排查,新手友好,老手高效。
6/5/2025 8:40:00 AM

构建生产级LLM应用完整指南:从原型到落地的全流程实践

一、LLM应用落地的真实挑战当Jasper AI的写作助手因意外流量在数小时内崩溃时,人们意识到:让LLM应用从实验室走向真实用户,绝非简单的代码迁移。 根据Anthropic 2024年开发者调查,73%的LLM应用在触达用户前折戟沉沙,问题并非出在AI模型本身,而是支撑系统无法应对真实世界的复杂性——用户的不可预测输入、API的偶发故障、成本的突然飙升,这些都是原型阶段未曾遭遇的“暗礁”。 本文将以实战为导向,结合代码示例与架构设计,详解如何将一个基于OpenAI API的简单聊天机器人,升级为具备容错能力、成本可控且可弹性扩展的生产级系统。
6/5/2025 2:45:00 AM
大模型之路

十步优化超越强化学习,仅需1条未标注数据!后训练强势破局

在具备强大的通用性能之后,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。 要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。 主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。
6/5/2025 2:33:00 AM
新智元

2025年,Mamba“联姻”Transformer,打造史上最强视觉骨干网络!

一眼概览MambaVision 提出一种混合 Mamba-Transformer 视觉骨干网络,首次将状态空间模型(SSM)与自注意力机制融合,显著提升图像分类、检测和分割任务的准确率与效率,达到新一代性能-速度最优前沿。 核心问题虽然 Mamba 模型在语言任务中展现了优秀的长序列建模能力,但其自回归结构难以高效捕捉图像中的全局空间依赖,限制了在计算机视觉中的表现。 如何在保持高吞吐和低复杂度的前提下建模图像中的长程依赖,是本研究要解决的核心问题。
6/5/2025 2:15:00 AM
萍哥学AI

AI Agent的新技术栈:Kafka、A2A、MCP 和 Flink

在网络拥有 HyperText Transfer Protocol (HTTP) 之前,在电子邮件拥有 Simple Mail Transfer Protocol (SMTP) 之前,我们受困于定制化集成、碎片化系统和脆弱的工作流程。 直到开放协议和共享基础设施出现,互联网才真正实现规模化,解锁了现代网络、全球通信和整个经济体系。 如今,AI 代理正处于类似的预标准化阶段。
6/5/2025 2:00:00 AM
AI研究生

人工智能和知识图谱四:知识图谱的超大规模产品

一、亚马逊网络服务 (AWS) — Amazon NeptuneAWS 的主要图形数据库服务是Amazon Neptune,这是一款完全托管的图形数据库引擎。 Neptune 功能多样,既支持 使用 SPARQL 查询的RDF 模型,也支持使用 Apache TinkerPop Gremlin 查询的属性图模型。 这种双重支持使 Neptune 适用于各种 KG 实现——您可以使用 RDF/OWL 存储语义知识图并通过 SPARQL 进行查询,或者将属性图方法与 Gremlin 结合使用。
6/5/2025 2:00:00 AM
晓晓

AI Agent落地面临的三大挑战

前面为大家介绍过AI Agent的发展史和工程结构模型,并对Agent的典型代表——Manus的技术架构进行了详细解析。 不少同学看完后纷纷留言说,他们在工作中也尝试在推动落地Agent,但结果总是不尽如意,希望我能给出一些建议。 我自己目前对AI Agent也处在探索实践阶段,并无法给出很好的建议。
6/5/2025 1:55:00 AM
写文章老张

铁了心为Agent开发铺路!OpenAI“真香”式升级:跳出Python圈、可人类干预、实时语音Agent、全链路追踪,代理福音

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)OpenAI 又放大招了! 用实力正名:在AI圈,自己的“一哥”地位不可动摇! 就在今天凌晨,OpenAI 官方开发者账号 @OpenAIDevs 在 X 平台上,一口气连续发布了 4 项关键更新,直接把 AI 代理(Agent)开发体验提升到新维度,围绕 Agent 开发体验、实时语音应用、人类干预机制和全链路追踪都做了重要升级。
6/4/2025 3:48:49 PM
云昭

最新发现!每参数3.6比特,语言模型最多能记住这么多

语言模型到底能记住多少信息? Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示:每个参数大约 3.6 比特。 一旦达到这个极限,它们就会停止记忆并开始泛化。
6/4/2025 1:56:51 PM

英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限

强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题? 这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率? 过去的研究多数持悲观态度:认为 RL 带来的收益非常有限,有时甚至会让模型「同质化」加重,失去多样性。
6/4/2025 1:56:06 PM

冲击自回归,扩散模型正在改写下一代通用模型范式

上个月 21 号,Google I/O 2025 开发者大会可说是吸睛无数,各种 AI 模型、技术、工具、服务、应用让人目不暇接。 在这其中,Gemini Diffusion 绝对算是最让人兴奋的进步之一。 从名字看得出来,这是一个采用了扩散模型的 AI 模型,而这个模型却并非我们通常看到的扩散式视觉生成模型,而是一个地地道道的语言模型!
6/4/2025 1:55:03 PM

Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转

本文第一作者为刘启昊,约翰霍普金斯大学计算机科学博士四年级学生,师从 Alan Yuille 教授,研究方向涉及模型鲁棒性、生成模型与 3D 视觉。 通讯作者为 Mannat Singh,Meta GenAI 研究员,近期的研究主要涉及视频生成领域创新工作,包括 Emu Video、MovieGen 等项目。 在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。
6/4/2025 1:53:57 PM

GPT-4o连验证码都解不了?SOTA模型成功率仅40%

当前最强多模态Agent连验证码都解不了? MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA(人机验证)问题”的开放式研究平台——Open CaptchaWorld。 该平台专门用于测试Agent解验证码的能力。
6/4/2025 1:53:22 PM

单卡搞定万帧视频理解!智源研究院开源轻量级超长视频理解模型Video-XL-2

单张显卡,就能处理万帧视频输入,并且编码2048帧视频仅需12秒! 国产开源模型又上大分,这次是在长视频理解领域:智源研究院联合上海交通大学等机构,正式发布新一代超长视频理解模型Video-XL-2。 长视频理解是多模态大模型关键能力之一。
6/4/2025 1:51:43 PM