AI在线 AI在线

智能体

最新研究!告别“大材小用”!智能体任务的黄金法则是:用小模型(SLM)

一、研究背景任务定义这篇论文研究的核心问题是:小型语言模型(SLMs,参数量在1-12B之间)是否能够在智能体系统(Agentic Systems)中替代大型语言模型(LLMs)。 智能体系统指的是那些需要调用外部工具、生成结构化输出、执行函数调用的AI应用场景,比如:检索增强生成(RAG)API调用和工具使用代码生成和执行结构化数据提取研究动机长期以来,业界有个默认共识:"模型越大越好"。 但这篇论文挑战了这个观点,提出了一个颠覆性的发现:在智能体场景下,小模型不仅够用,而且往往更优秀。
10/15/2025 2:35:00 AM
ChallengeHub

将科研脏活累活真·丢给AI!上海AI Lab推出科研智能体FlowSearch

将复杂科研过程自动化落地,上海人工智能实验室推出FlowSearch! 在GAIA、HLE、GPQA以及TRQA等科研基准上,FlowSearch不仅实现了性能全面领先,还展示了AI在复杂科研任务中的动态协作与深度推理能力。 展开来说,当AI在问答基准和标准化测试中表现卓越之时,其进行科学研究的能力也在被更多关注。
10/14/2025 12:15:55 PM
一水

只需1/4预算,性能反超基线:阿里高德提出Tree-GRPO,高效破解智能体RL难题

对于大模型的强化学习已在数学推理、代码生成等静态任务中展现出不俗实力,而在需要与开放世界交互的智能体任务中,仍面临「两朵乌云」:高昂的 Rollout 预算(成千上万的 Token 与高成本的工具调用)和极其稀疏的「只看结果」的奖励信号。 来自阿里高德的一篇最新研究论文提出了面向 Agent RL 的 Tree-GRPO 方法,将独立的链式采样改造为智能体步骤级的树搜索。 该方法通过共享前缀、一次扩展多个分支,在相同预算下获得更丰富的有效轨迹;更重要的是,仅凭最终奖励即可沿树结构回溯出过程中的偏好信号,等价于隐式的步骤级偏好学习。
10/14/2025 9:06:00 AM

2025 AI Agent 元年:你还在用 AI 聊天,别人已靠“智能体”成为“超级个体”

最近,我和朋友聊 AI 时,找到了一个共识:虽然,现在大家生活在同一个世界。 但,却活在不同的时代。 图片现在,很多人还在用传统的方式(你不用或很少用 AI)来解决问题,AI 没有产生什么帮助。
10/14/2025 3:25:00 AM
敖丙

重新定义AI编程协作:深入解析Claude Code多智能体系统架构

引言:站在AI编程的十字路口2025年的软件开发领域正经历着一场静悄悄的革命。 如果你还停留在"AI只能写写简单代码"的认知层面,那么你即将错过这个时代最激动人心的技术突破。 今天,我们要深入探讨的Claude Code Agents系统,不仅仅是一个代码生成工具——它是一个由84个专业智能体、15个工作流编排器和42个开发工具组成的完整生产级多智能体协作系统。
10/14/2025 2:00:00 AM
许泽宇

“AI版LeCun”自己讲解论文,自我进化智能体框架生成精美演讲视频

AI自己讲明白论文,还能生成更美观的幻灯片。 加州大学圣塔芭芭拉(UCSB)与圣克鲁兹(UCSC)的研究者提出EvoPresent,一个能够自我进化的学术演讲智能体框架,让AI不仅能“讲清楚论文”,还能“讲得好看”。 从逻辑到审美:科研演讲自动化的瓶颈尽管已有很多系统能将论文自动转化为幻灯片或海报,但它们仍存在三大局限:叙事单一、设计僵化、缺乏反馈。
10/13/2025 9:46:12 AM

Open Library 任务为何难倒 GPT-5?SWE-Bench Pro 揭示 AI 编程智能体的真实边界

大家好,我是肆〇柒。 今天要与大家分享的是一项由 Scale AI 研究团队最新发布的重磅研究成果——SWE-Bench Pro。 这项研究增强了我们对 AI 编程智能体能力的认知,它不再满足于测试模型能否完成简单的代码修改,而是直面真实企业环境中那些需要修改数百行代码、跨越多个文件的复杂任务。
10/13/2025 9:33:19 AM
肆零柒

微调已死?Agentic上下文工程登场,无需微调实现模型进化

是什么,让一位 AI 自动化架构师发出了「微调已死」的感慨? 一篇来自斯坦福大学、SambaNova、UC 伯克利的论文近日引发了广泛讨论。 他们提出了一种名为 Agentic Context Engineering(智能体 / 主动式上下文工程)的技术,让语言模型无需微调也能实现自我提升!
10/11/2025 6:05:23 PM

别再给大模型打鸡血,先救救被“智能体”三个字忽悠的预算

“兄弟,我们老板昨天看完路演,拍桌子要上Agent,说三个月让客服成本归零。 ”“归零? 他以为Agent是灭霸,打个响指预算就蒸发?
10/11/2025 9:40:11 AM
大数据AI智能圈

小型革命:SLM、智能体人工智能与超级智能之路

过去十年的大部分时间里,人工智能领域被一个强大却终归存在局限的范式所主导——“越大越好”。 2010年代的里程碑式研究证实,扩大模型规模能带来可预测的性能提升,这一结论让“越大越好”的理念根深蒂固,进而引发了一场构建超大规模模型的竞赛,模型参数从数十亿一路突破至万亿级别。 在当时的认知里,通往高级智能的道路是一场垂直攀登,每一次突破都需要更多数据、更强算力以及更庞大的单体模型作为支撑。
9/28/2025 3:20:00 AM
大模型之路

云栖通道上演AI“实战秀”:守护珊瑚、助盲出行、千元机器人勾勒落地新图景

9月25日正午,杭州云栖大会现场2号馆小舞台,云栖通道如期开通。 这是一个为广大AI产业从业者、创业者以及大模型开发者提供的专属交流平台。 在今年的主题分享中,四位嘉宾带着各自的AI创新成果登台:从南海珊瑚礁的守护,到视障人群的出行辅助;从低成本具身智能开发,到农牧场的智能管理,用真实案例勾勒出人工智能落地现实的鲜活图景。
9/26/2025 10:40:33 AM

Agentize Everything:EnvX如何把18个GitHub仓库变成能协作的AI指挥家?

大家好,我是肆〇柒。 今天要跟大家分享一项来自上海创新研究院、上海交通大学、浙江大学、复旦大学以及东京大学的联合研究——EnvX。 这个由多个顶尖学术机构组成的团队,提出了一套名为EnvX的框架,希望解决一个困扰开发者已久的问题:如何让成千上万的开源代码仓库摆脱繁琐的手动集成,变得像智能助手一样可以对话、协作?
9/25/2025 10:51:51 AM
肆零柒

WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

大家好,我是肆〇柒。 本文一篇来自阿里巴巴通义实验室(Tongyi Lab, Alibaba Group)的研究,是通义 Deepresearch 发布的系列研究之一。 这篇论文不仅推出了一个名为WebResearcher的新型AI智能体,更重要的是,它提出了一种名为"IterResearch"的全新范式,期望从根本上解决长程推理任务中的核心瓶颈。
9/24/2025 10:24:57 AM
肆零柒

WebWeaver:一个模仿人类思维的AI研究员是如何炼成的?

大家好,我是肆〇柒。 在本文我们要一起了解的是来自阿里巴巴通义实验室(Tongyi Lab, Alibaba Group)的前沿研究成果——WebWeaver框架。 这篇论文直面AI Open-ended深度研究(OEDR)的核心挑战,不是简单堆砌算力,而是从人类认知过程汲取灵感,构建了一个能让AI像博士生一样思考、探索、写作的智能系统。
9/23/2025 10:27:58 AM
肆零柒

超越规模神话:WebSailor-V2 的数据-环境协同之道

大家好,我是肆〇柒。 本文要和大家分享的是来自阿里通义实验室(Tongyi Lab, Alibaba Group)的一项重磅研究成果——WebSailor-V2。 这项工作不仅刷新了开源Web智能体的性能上限,更关键的是,它揭示了一个被长期忽视的真相:决定Agent能力边界的,或许不是模型参数,而是数据质量与训练生态系统的构建方式。
9/23/2025 9:42:58 AM
肆零柒

HANRAG:用“启发式”决策终结多跳问答的噪声与低效困局

大家好,我是肆〇柒。 今天一起了解一篇来自蚂蚁集团(Ant Group)的研究力作——HANRAG。 这项工作从根本上重新思考了RAG系统的决策逻辑。
9/22/2025 9:23:24 AM
肆零柒

新威胁需要新防御!对AI智能体安全的一些思考和建议

AI智能体正在成为连接数字世界和物理世界的关键纽带。 从操控软件 、开发代码到科学发现,它在现代企业数智化发展中有着几乎无限的发展潜力。 随着AI智能体能力和应用的不断增长,如何确保它们安全、可靠地运行是每个企业都必须要面对的严峻挑战。
9/19/2025 2:14:53 PM

自主式AI应用面临的最大障碍

所谓的自主式AI正在登场——据说它能带来超智能的AI助手,能够替我们执行复杂任务。 这被视为继ChatGPT、Claude等仅能回答问题或生成内容的聊天机器人之后的下一代AI。 相关技术的开发者和销售方告诉我们,我们正处于一个“全自动化”未来的边缘:AI之间可以协作,并访问外部系统来完成大量日常的知识处理与决策任务。
9/19/2025 7:00:00 AM
Bernard Marr