AI在线 AI在线

Agent

拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?

拒绝「盲修」:JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?

在迈向通用人工智能的道路上,我们一直在思考一个问题:现有的 Image Editing Agent,真的「懂」修图吗? 大多数基于 LLM/VLM 的智能体,本质上更像是一个「盲目的指挥官」。 它们能流利地写出修图代码或调用 API,但在按下回车键之前,它们看不见画布上的变化,也无法像人类设计师那样,盯着屏幕皱眉说:「这张对比度拉太高了,得往回收到一点。
12/24/2025 11:58:00 AM 机器之心
钉钉推出专为企业打造的 AI 硬件 DingTalk Real

钉钉推出专为企业打造的 AI 硬件 DingTalk Real

在2AI 钉钉1.1新品发布暨生态大会上,钉钉正式推出了一款名为 DingTalk Real 的企业级 AI 硬件。 官方表示,这款硬件旨在为企业提供全新的智能终端,改变传统设备为人服务的模式,专注于为企业中的 “Agent” 角色提供支持。 DingTalk Real 被设计为一个 AgentOS 执行终端,其核心功能包括 Real Entity、Real Data 和 Real Time,能够在企业内部网络中高效运作。
12/23/2025 5:56:42 PM AI在线
最火、最全的Agent记忆综述,NUS、人大、复旦、北大等联合出品

最火、最全的Agent记忆综述,NUS、人大、复旦、北大等联合出品

在过去两年里,记忆(Memory)几乎从 “可选模块” 迅速变成了 Agent 系统的 “基础设施”:对话型助手需要记住用户习惯与历史偏好;代码 / 软件工程 Agent 需要记住仓库结构、约束与修复策略;深度研究型 Agent 需要记住已阅读的证据链、关键假设与失败路径,没有 memory 的智能体难以跨任务保留有效经验,难以稳定维护用户偏好与身份设定,也难以在长周期协作中保持行为一致、避免反复犯同样的错误。 与此同时 Memory 概念在迅速膨胀、也在迅速碎片化:很多论文都声称自己在做 “agent memory”,但实现方式、目标假设、评价协议差别巨大,多术语并行又进一步模糊了边界。 在这样的背景下,来自新加坡国立大学、中国人民大学、复旦大学、北京大学等顶级学术机构共同撰写并发布了百页综述《Memory in the Age of AI Agents: A Survey》,尝试用统一视角为快速扩张、却日益碎片化的 “Agent Memory” 重新梳理技术路径。
12/22/2025 6:19:00 PM 机器之心
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

在机器人操控领域,Vision-Language-Action (VLA) 模型曾被视为通往通用机器人的“圣杯”。 当前,它却面临着严重的瓶颈问题:数据饥渴与分布外(OOD)失效:VLA 很依赖大规模、高质量的演示数据;一旦遇到训练数据分布之外的场景,或者数据量稍有不足,性能明显下降。 模型容量与推理能力互斥:为了让模型学会动作控制而进行的微调,会破坏 LLM 原本拥有的高层语义理解和推理能力。
12/16/2025 3:13:18 PM 量子位的朋友们
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

编辑部 整理自. MEET2026量子位 | 公众号 QbitAI随着AI从回答问题迈向自主执行和创造,行业开始进入真正的Agentic AI落地元年。 这不仅改变了应用形态,也正在重塑整个AI技术栈的底层逻辑。
12/16/2025 10:47:31 AM 梦瑶
第二波!2025年12月精选实用设计干货合集

第二波!2025年12月精选实用设计干货合集

大家好,这是 2025 年 12 月第 2 波干货合集! 这期干货合集也是干货满满,包含了功能丰富的 AI 智能体平台 Genspark ,开源前端组件构建平台 shadcn/ui ,Google 出品的创意画板 AI 工具 Mixboard,专门用来创建内部应用的 AI 平台 Build0.ai,使用 macOS 来呈现的独特作品集,超好用的矢量插画图库 Getillustrations。 当然,在继续阅读下去之前,记得看看往期干货中有没有你感兴趣的素材:下面我们具体看看这一期的干货:.
12/16/2025 8:08:41 AM 陈子木
谷歌发布智能体Scaling Law:180组实验打破传统炼金术

谷歌发布智能体Scaling Law:180组实验打破传统炼金术

智能体(Agent),即基于语言模型且具备推理、规划和行动能力的系统,正在成为现实世界 AI 应用的主导范式。 尽管其已被广泛采用,但决定其性能的原则仍未被充分探索,导致从业者只能依赖启发式经验,而非有原理依托的设计选择。 现在,谷歌的一篇新论文填补了这一空白!
12/12/2025 10:16:00 AM 机器之心
美团首款 AI IDE 产品 CatPaw 开放公测:研发渗透率超95%,代码生成率破50%

美团首款 AI IDE 产品 CatPaw 开放公测:研发渗透率超95%,代码生成率破50%

今日,美团旗下首款人工智能集成开发环境(AI IDE)产品 Meituan CatPaw 正式宣布进入公测阶段。 这款产品以 Agent 与人协作为核心,旨在通过智能驱动的编程方式,大幅提升开发效率。 据介绍,CatPaw 的核心功能包括智能驱动编程、代码补全以及项目预览调试等。
11/10/2025 5:36:28 PM AI在线
Kimi K2 Thinking突袭!智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距

Kimi K2 Thinking突袭!智能体&推理能力超GPT-5,网友:再次缩小开源闭源差距

鱼羊 发自 凹非寺. 量子位 | 公众号 QbitAIKimi K2 Thinking,现已发布并开源! 主打一个“模型即Agent”,不仅是Kimi“迄今能力最强的开源思考模型”,还掌握边思考,边使用工具的能力——.
11/7/2025 9:42:41 AM 鱼羊
聚焦手机AI“超级入口”,中兴Nebula小模型让手机秒变“小秘”?

聚焦手机AI“超级入口”,中兴Nebula小模型让手机秒变“小秘”?

允中 发自 凹非寺. 量子位 | 公众号 QbitAI随着移动智能技术的飞速迭代,手机端聚合服务的AI“超级入口” 正成为行业竞争的新焦点——. GUI Agent(图形用户界面智能体)凭借重塑流量分发格局的潜力,不仅催生千亿级市场机遇,更吸引苹果、华为、字节跳动、美团、智谱AI等企业纷纷布局。
11/4/2025 2:36:07 PM 思邈
"人工测试"迈向“无人测试",2025年IT产研升级面临“大变”

"人工测试"迈向“无人测试",2025年IT产研升级面临“大变”

出品 | 51CTO技术栈(微信号:blog51cto)一个略显科幻的场景正在软件研发领域悄然上演:开发工程师将代码合并入CI/CD流水线后,一个AI驱动的“质量保障智能体”便被瞬间唤醒。 它能够辅助解析需求文档PRD,自主规划测试策略,并高效生成覆盖边界条件的测试用例与测试脚本。 面对大模型对复杂领域的理解产生的“幻觉”,通过人机协同和工程化的调优,Agent在发现UI渲染异常或API错误时,能快速自动化地收集日志、分析关键链路,并提交一份完善附带复现路径和初步修复建议的报告。
11/4/2025 9:30:10 AM
大模型公司不搞浏览器搞Agent,实测找到原因了

大模型公司不搞浏览器搞Agent,实测找到原因了

闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI如果Agent能操作命令行,就有了与整个计算机系统交互的能力。 也意味着一台计算机的几乎所有功能,都可以通过自然语言来驱动。
10/31/2025 4:57:59 PM 闻乐
8%价格,2倍速度!国产MiniMax M2暴打Claude Sonnet 4.5?我们实测后发现堪称性价比之王!

8%价格,2倍速度!国产MiniMax M2暴打Claude Sonnet 4.5?我们实测后发现堪称性价比之王!

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)10月27日,MiniMax正式开源并上线了 MiniMax M2。 官方口号喊得非常响亮:“专为 Agent 和代码而生,仅 Claude Sonnet 8% 价格,2倍速度,限时免费! ”这就引发了很多网友纷纷前去体验,再加上官方延长了限时免费的时间,截至11月7日前都可以免费体验Agent平台和调用API,政策十分诱人。
10/31/2025 10:24:42 AM 听雨
开源Agent编程模型MiniMax M2,性价比之王

开源Agent编程模型MiniMax M2,性价比之王

开源模型之王易主,不过还是国产模型! 行业评测里,它在 Artificial Analysis 榜单综合进入全球前五、开源模型第一梯队,重点在编程、工具使用、深度搜索这些 Agent 核心能力上表现亮眼。 MiniMax 刚发布并开源M2模型,它采用稀疏 MoE 架构,总参数 230B,但推理时仅激活约 10B,这意味着在保持高性能的同时,把算力开销和延迟压下来了。
10/31/2025 9:07:24 AM 阿丸笔记
n8n + AI Agent 提示工程:2025 年最有效的实操技巧

n8n + AI Agent 提示工程:2025 年最有效的实操技巧

为什么大多数 Prompting 方法会失效根据 Anthropic 的 Context Engineering 研究,在 2025 年,真正重要的不是“prompt engineering”,而是“context engineering”。 问题不再是“如何打造完美的 prompt”,而是“哪种 context 组合能引发期望的行为”。 我会带你走一遍当前研究(Anthropic、OpenAI、Google、Wharton)对 AI agent prompting 的结论——以及如何在 n8n 工作流中具体落地。
10/31/2025 1:45:00 AM AI研究生
AI Agent的觉醒时刻:FlowithOS,一场数字革命的序幕

AI Agent的觉醒时刻:FlowithOS,一场数字革命的序幕

朋友们,当我们在谈论AI的时候,脑海中浮现的往往是那些能够“回答问题”、“生成内容”的强大模型。 但如果我告诉你,一场更深层次的变革正在悄然发生,AI不再满足于“动脑”,而是要“动手”了呢? 最近,AI圈子里炸开了一个重磅消息:一家名为Flowith的初创公司,在2025年10月28日,正式向世界推出了他们的全新产品——FlowithOS。
10/31/2025 1:25:00 AM 墨风如雪
LangChain提出Agent工程化的新分层(Agent harness)

LangChain提出Agent工程化的新分层(Agent harness)

LangChain拿到了新融资,对自己有了新定位——Agent基础设施提供商,同时对自己的产品矩阵做了新的梳理,重新定义了Agent开发的三个层次。 :Framework(框架层):提供抽象和标准化接口。 LangChain就是这一层,还有Vercel的AI SDK、CrewAI这些。
10/30/2025 3:00:00 AM winkrun
一文讲透AI Agent开发中的human-in-the-loop

一文讲透AI Agent开发中的human-in-the-loop

前段时间确实有点忙,好久没有发文了。 不过最近有好多AI技术方面的想法要跟大家分享:-)今天我们主要聊一聊在AI Agent开发中非常重要的一个特性:human-in-the-loop。 为什么需要human-in-the-loop?
10/30/2025 12:55:00 AM 张铁蕾