AI在线 AI在线

智能体

张亚勤院士:基础大模型最终不超过10个,十年后机器人比人多 | MEET2026

编辑部 整理自 MEET2026. 量子位 | 公众号 QbitAI从ChatGPT到DeepSeek,AI正沿着“智能 ”的路径进入新一轮浪潮。 正值大模型从“算力堆叠”走向“推理优先”的关键节点,清华大学智能产业研究院(AIR)创始院长、中国工程院外籍院士张亚勤提出:新一轮人工智能,是信息智能、物理智能和生物智能的融合,本质上也是原子、分子和比特的融合。
12/11/2025 6:34:53 PM
思邈

智谱重磅开源 AutoGLM:能点外卖、订机票的手机级 AI Agent 向所有人开放

智谱今日宣布正式开源其核心 AI Agent 模型 AutoGLM,这一具备“Phone Use”能力的智能体能够稳定完成外卖点单、机票预订等长达数十步的复杂手机操作流程。 开源意味着任何硬件厂商、手机厂商及开发者,都可以在自己的系统中复现一个能“看懂屏幕”、并能像真人一样完成点击、输入、滑动等操作的 AI 助手。 AutoGLM 已支持包括微信、淘宝、抖音在内的超过50款高频中文应用的核心场景,其演示效果与此前引发行业关注的“豆包手机”极为相似:用户无需手动操作,只需让 AI 观察屏幕内容,它便可以自动执行任务、连续完成多步骤操作并直达结果。
12/9/2025 11:36:56 AM
AI在线

TRAE 发布 SOLO 正式版:实时感知 + 多智能体 开启新一代专业级 AI 编码模式

TRAE 宣布推出 SOLO 正式版,定位为 “The Responsive Coding Agent”,面向专业开发者提供更加实时、可掌控、多任务并行的 AI 编程体验。 即日起,该版本已在 TRAE 国际版全面开放,并开启限时免费体验活动。 今年7月,TRAE 推出 SOLO Beta 版,内置智能体 SOLO Builder,能够基于多模态上下文执行需求理解、任务分解、工具调度与结果交付,帮助开发者快速构建端到端应用。
11/14/2025 5:47:21 PM
AI在线

百度打造「最硬AI云」,硬在哪里?

2025年被称为“Agent元年”,这背后潜藏着一个深刻的行业转向:当AI如顶级赛车般展现出惊人性能后,企业已不再满足于驻足围观,只做看台上鼓掌的观众。 他们的真正诉求是走下看台踏上赛道,亲自握紧方向盘,将这辆性能超群的赛车,平稳、精准地驶向自己的商业目的地。 翻过“智能涌现”的华丽篇章,AI的下一章节是什么?
11/14/2025 3:30:00 PM
周蕾

斯坦福7B智能体全面超越GPT-4o,推理流登顶HF

当前AI Agent的发展正陷入两难的境地:一方面,训练「全能型」大模型让其同时承担推理、规划与工具调用,虽具一体化优势,但在长链推理中往往训练不稳定、扩展性受限;另一方面,基于prompt的智能体系统虽具灵活性,却缺乏学习与自我优化能力,无法从交互中持续进化。 如何突破这一瓶颈? 斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和Lambda的研究团队给出了新答案:让智能体系统在推理「流」中进行在线强化学习,从而实现持续的自我提升与能力进化。
11/4/2025 8:42:27 AM

LangChain重磅升级!DeepAgents 0.2带来可插拔后端,重新定义AI智能体开发

两个月前,LangChain团队提出了"深度智能体"(Deep Agents)的概念,用来描述那些能够执行复杂、开放式任务并在更长的时间范围内运行的AI智能体。 他们认为这类智能体需要四个关键要素:规划工具、文件系统访问、子智能体,以及详细的提示词。 随后,他们推出了deepagents这个Python包,内置了所有这些基础组件。
11/4/2025 12:00:00 AM
阿丸笔记

最新 Claude Code 实战秘籍!月烧十万氪金总结:管理智能体上下文、批量处理任务、快速原型、自动生成 PR……

编辑 | 听雨小编最近刷到一篇让程序员直呼“醍醐灌顶”的文章——出自软件工程师兼安全工程师 Shrivu Shankar。 他基于日常使用 Claude Code 的真实经验,分享了从个人项目到企业级开发的全套智能体最佳实践。 Shrivu 不只是讲理论,他讲述了管理智能体上下文、批量处理任务、快速原型、自动生成 Pull Request 的实操技巧,还结合 Hooks、Skills、MCP、SDK 等高级特性,告诉你如何把 AI 真正融入日常工程工作流。
11/3/2025 3:17:45 PM
听雨

谷歌CEO确认:Gemini3年内发布,AI Agent能力或成突破口

谷歌首席执行官桑达尔·皮查伊在最新的财报电话会上证实,公司计划在今年内推出其下一代人工智能模型Gemini3。 这款新模型的目标是超越当前的Gemini2.5Pro,并着重提升其在处理复杂、多模态任务中的**“智能体”(Agent)能力**,以期进一步缩小与OpenAI GPT-5等顶级竞争对手之间的性能差距。 Gemini3:聚焦复杂多模态任务皮查伊指出,Gemini3在设计上将更注重实用性和复杂性。
11/3/2025 11:21:43 AM
AI在线

字节发布通用游戏智能体!5000亿token训练,用鼠标键盘吊打GPT-5!

用鼠标和键盘打游戏的智能体,这就来了! 它不仅能在《我的世界》中和普通玩家一较高下。 还能玩《神庙逃亡》、《星露谷》,甚至可以在未见过的3D网页游戏中实现零样本迁移。
10/31/2025 8:51:00 AM

智能体可能通过普通网络搜索泄露企业数据

该研究由Smart Labs . AI和奥格斯堡大学共同开展。 作者希望了解间接提示注入在实际应用中(而非仅在孤立案例中)是如何运作的。
10/31/2025 2:00:00 AM
Mirko

Cursor 2.0来了!可视化的Claude Code?

如果把IDE的主角从“文件”挪到“代理”,会发生什么? Cursor 2.0 给出了一个很大胆的答案:界面不再围绕文件树展开,而是以“多个智能体”的协作来组织你的工作。 这次更新不只是加了一个侧栏或几个按钮,而是把多智能体并行、结果择优、改动可视化这些能力,变成了默认的交互基础。
10/30/2025 4:23:47 PM

老黄亲自站台,英伟达编程神器!Cursor 2.0自研模型狂飙4倍

Cursor迎来重大升级,2.0版本来了! 一直「套壳」的Cursor这次终于发布了首款自研编码模型Composer。 Composer的速度是同等模型的4倍。
10/30/2025 4:11:29 PM

静态知识≠动态交易:STOCKBENCH揭示LLM智能体在真实金融市场的表现真相

大家好,我是肆〇柒。 今天我们来看一项来自清华大学和北京邮电大学联合研究团队的工作——STOCKBENCH。 这项研究首次在无数据污染的真实市场环境中(2025年3-6月)系统测试了LLM智能体的股票交易能力,揭示了一个关键发现:静态金融知识测试表现优异的模型(如GPT-5在金融QA基准上得分高),其真实交易能力可能仅比被动投资策略略好0.3%回报率。
10/29/2025 5:00:00 AM
肆零柒

LangChain V1.0 深度解析:手把手带你跑通全新智能体架构

LangChain V1.0 简介终于,万众瞩目的 LangChain V1.0 版本正式发布了! 那对于最新的 V1.0 版本而言,其最显著的代码层面变化集中在 create_agent() 方法。 如果你之前没有用过旧版本的LangChain,那么以下关于更新内容的介绍可以跳过不看。
10/29/2025 4:22:00 AM
剑锋777

开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus

来自伦敦大学学院(UCL)的初创团队EuniAI开源发布了AI软件智能体Prometheus。 该系统在SWE-bench Verified上取得71.2%的Pass@1成功率,成绩已被官方确认并合并至主榜单。 令人瞩目的是,这一成果来自高校科研团队,却已与产业巨头同台竞技,展现出学术研发在AI工程领域的产业级突破。
10/28/2025 9:22:18 AM

DATAMIND:构建专业级数据分析智能体的可扩展方法论

大家好,我是肆〇柒。 今天来看看来自浙江大学与阿里巴巴集团联合研究团队的最新工作——《Scaling Generalist Data-Analytic Agents》。 这项研究不仅提出了名为 DATAMIND 的高质量数据合成与智能体训练框架,更训练出了在多项基准上超越 GPT-5 的开源数据分析智能体 DATAMIND-14B,为构建专业领域 Agentic AI 提供了一套可复现、可扩展的方法论。
10/27/2025 9:00:09 AM
肆零柒

多轮交互驱动的Text-to-SQL智能体

在大语言模型(LLM)风头正劲的当下,让普通用户用自然语言向数据库提问、自动生成 SQL 查询成为一种重要探索方向,即所谓 Text-to-SQL 技术。 尽管近年来已有不少成果,但在真实场景下,Text-to-SQL 仍存在一些挑战,尤其是在 多轮交互、宽表(很多列)查询、可解释性 等方面:用户常常不是一次性把完整问题说出来,而是一步步迭代补充、提出子问题数据库表可能列很多、关系复杂,模型在“选列”“join”“过滤条件”上容易出错模型直接给一个 SQL 字符串,往往不透明、难以调试与纠错这篇论文 “Interactive-T2S” 正是在这类痛点中切入,提出一种 交互式、多轮驱动 的 Text-to-SQL 框架,让模型在生成 SQL 的过程中向数据库“发问”、拉取信息,从而提高准确性与可解释性。 下面,我们从核心思路、方法设计、实验结果及未来展望四个层面解读。
10/24/2025 10:58:24 AM

"在思考中回忆,在回忆中思考":MemGen 开启 AI 记忆新范式

大家好,我是肆〇柒。 今天要和大家分享的是一项来自新加坡国立大学的突破性研究——MemGen。 这项研究由张贵斌、付沐鑫和严水城三位研究者主导,他们发现现有LLM智能体的记忆机制存在根本局限:参数化方法导致灾难性遗忘,检索式方法则难以实现记忆与推理的无缝融合。
10/24/2025 9:41:21 AM
肆零柒