智能体
构建AI工作流与智能体的信任:持续评估与优化指南
在人工智能技术飞速发展的当下,开发并部署一款AI驱动的应用已不再是遥不可及的目标。 开发者们耗费数小时打造智能体或复杂工作流,经过有限的手动测试后,便满怀信心地认为其概念可行。 然而,初始测试结束后,故事往往并未迎来圆满结局——许多AI应用被直接部署,随后便陷入“自生自灭”的境地,性能无声且往往灾难性的衰退也自此开始。
9/4/2025 1:35:00 AM
大模型之路
UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互
我们早已习惯那排拥挤的标签页,这种线性堆叠在信息发现与跨页整合时不仅加重负担,也制造了高昂的管理成本。 预订旅行酒店便是例子:用户需在多个选项间权衡比较、了解均价,并结合机票与活动随时调整计划,而单页式浏览器迫使用户反复切换界面,频频丢失上下文。 即便是基于传统范式的AI浏览器,如Arc的Dia或Perplexity的Comet,也只是在单页框架下加入了智能体功能。
9/3/2025 2:05:11 PM
用“因果规划”解决多智能体协作中的任务依赖难题|港科广&腾讯
在长周期、多步骤的协作任务中,传统单智能体往往面临着任务成功率随步骤长度快速衰减,错误级联导致容错率极低等问题。 为了应对这些问题,就需要构建具备全局规划与因果依赖管理能力的分布式智能体框架,并在真实游戏中验证效能。 基于此,来自港科广和腾讯的研究团队提出了CausalMACE方法,通过将因果推理机制系统性地引入开放世界多智能体系统,为复杂任务协同提供了可扩展的工程化解决方案。
9/3/2025 2:05:11 PM
底层逻辑的转变:从AI代码生成,到真正的开发伙伴关系
译者 | 核子可乐审校 | 重楼Claude 4甫一亮相,市场就被其强大的推理和编程能力折服。 但在连续使用数月之后,我意识到大模型真正的革命不在于生成更好的代码片段,而是其中蕴藏的自主性潜力。 很多人更多关注AI编程的语法正确性、基准测试得分和代码有效率,但我在对Claude 4的实际测试中体会到:能够全面理解开发目标、持续寻求解决方案并自主克服障碍的AI系统正在出现。
9/3/2025 8:13:03 AM
核子可乐
借助 AgentCore Memory 为智能体应用添加记忆功能
在构建智能体(Agentic)应用时,上下文是决定模型响应质量的关键因素。 各类智能体框架(如 LangGraph、CrewAI 等)的核心作用,本质上是构建包含充足上下文的增强型提示词(Prompt),帮助模型生成贴合需求的结果。 而记忆系统作为上下文的重要来源,能让智能体记住交互历史、用户偏好等关键信息,大幅提升应用的个性化与连续性。
9/3/2025 4:00:00 AM
大模型之路
AgentScope 1.0:从ReAct范式到生产级智能体应用的开发者中心框架
大家好,我是肆〇柒。 今天要和大家分享的,是由阿里巴巴集团(Alibaba Group)研究团队推出的智能体开发框架——AgentScope 1.0。 这篇论文不仅系统地解决了现代智能体应用开发中的诸多工程难题,更通过其“开发者中心”的设计理念,为构建可扩展、适应性强且高效的智能体应用提供了坚实的实践基础。
9/2/2025 4:00:00 AM
肆零柒
从“知识断片”到“零样本推理”:AutoBnB-RAG如何赋能多智能体AI安全协作
大家好,我是肆〇柒。 今天要和大家分享的这项研究来自佐治亚理工学院(Georgia Institute of Technology)的工作,AutoBnB-RAG非常巧妙,为解决大型语言模型在网络安全决策中的“知识断片”问题,提供了一个既符合人类专家直觉又极具工程智慧的方案——让AI团队在“卡壳”时才去“查资料”。 这个研究为我们在多智能体中应用 agentic RAG 带来一些启发。
9/2/2025 2:00:00 AM
肆零柒
LangGraph结构化输出详解:让智能体返回格式化数据
引言在使用大语言模型进行开发时,我们经常需要模型返回特定格式的数据,而不是纯文本。 比如在构建AI应用时,我们可能需要模型返回JSON格式的数据用于后续处理,或者返回符合特定数据结构的对象。 这就是结构化输出的价值所在。
9/2/2025 1:25:00 AM
ChallengeHub
科研智能体「漫游指南」—助你构建领域专属科研智能体
欢迎关注中国科学院自动化研究所 & 北京中关村学院 & 芝加哥大学 & 西湖大学 & 腾讯带来的科研智能体方面的最新综述调研。 当前基于大语言模型(LLM)的智能体构建通过推动自主科学研究推动 AI4S 迅猛发展,催生一系列科研智能体的构建与应用。 然而人工智能与自然科学研究之间认知论与方法论的偏差,对科研智能体系统的设计、训练以及验证产生着较大阻碍。
9/1/2025 11:03:00 AM
机器之心
解码50%失败率:自主智能体的三大“死穴”与破局之道
大家好,我是肆〇柒。 最近,来自香港中文大学和新加坡管理大学的研究团队在一项关于自主智能体的实证研究中发现:当前主流智能体系统的任务完成率竟然只有约50%。 他们不仅构建了一个包含34个可编程任务的基准测试,还对104次失败案例进行了系统性归因,首次提出了“三层失败分类法”。
9/1/2025 9:13:54 AM
肆零柒
构建检索增强生成(RAG):从基础版到多智能体系统的演进之路
在企业人工智能领域,检索增强生成(RAG)无疑是一个令人向往的目标。 只需让大型语言模型(LLM)接入企业私有数据,就能瞬间拥有一位精通业务的“天才专家”。 然而,残酷的现实是,众多RAG项目纷纷折戟沉沙。
9/1/2025 8:53:57 AM
大模型之路
更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作
最新开源多模态智能体,能自动操作手机、电脑、浏览器的那种! 开源评测榜单和中文场景交互成绩全面提升。 比如让它播放一首歌,它就能自己找到对应软件、找到对应歌手、选择歌曲,像人类一样点击、滑动、输入。
9/1/2025 8:52:00 AM
智能体革命:AI如何重塑数据管理的四大核心支柱
借助智能体增强关键数据管理领域随着数据的复杂性和重要性不断提升,企业亟需更智能、更敏捷且可扩展的方法来管理数据。 由智能体驱动的数据管理员,代表了数据管理的下一阶段演进——它融合了人类专业知识与AI的强大能力。 这些领域对于执行领域数据战略至关重要,它们基于战略主题和关键数据元素作为核心输入。
9/1/2025 7:13:00 AM
Maria
为 AI Agent 行为立“规矩”——字节跳动提出 Jeddak AgentArmor 智能体安全框架
技术报告地址: AI Agent 时代已来,但“失控”风险近在眼前继 LLM(大语言模型)之后,AI Agent(智能体)正掀起新一轮的技术革命。 它们不再仅仅是语言的“复读机”,而是能够自主理解、规划并执行现实世界任务的“行动派”。 从自动预订旅行、管理复杂的云资源,到处理成千上万封邮件,AI Agent 展现出的巨大潜力,预示着一个由 AI 驱动的自动化新纪元。
8/29/2025 12:10:00 AM
万用科研助手:浙大推出SciToolAgent构建多工具协同科研平台
编辑丨@现代科研离不开智能工具,从分子模拟到数据统计,从文献追踪到实验设计,研究者每天要在不同的软件和平台间来回切换。 然而这些工具往往互不兼容,导致科研工作流程支离破碎。 而且更尴尬的是,即使是最新的 LLMs,在调用多种科研工具时也会频繁出现任务进度卡死,无法顺利完成端到端的复杂任务。
8/28/2025 5:24:00 PM
ScienceAI
专治智能体盲跑!微软发布AI Agent 五大可观测性,打通任督二脉
今天凌晨,微软在官网发布了AI Agent 5大可观测性最佳实践,以帮助开发者深度解决智能体盲跑、自动化流程不可控等难题。 智能体可观测性的主要好处包括:在开发早期检测并解决问题;验证智能体是否符合质量、安全和合规标准;优化生产中的性能和用户体验;维护智能体的信任和问责制等。 同时还展示了5个应用案例,让大家更直观地了解这项技术。
8/28/2025 11:55:15 AM
企业成功部署智能体的关键要素
毫无疑问,智能体——那些能够在企业工作流中自主、异步运作的系统——目前正是企业界的热门话题。 然而,越来越多的人担心,这些讨论大多停留在口头上,充满炒作,却缺乏实质性支撑。 例如,Gartner指出,企业正处于“期望膨胀的顶峰”,这是在失望感出现之前的一段时期,因为供应商尚未用真实的、可落地的案例支撑其承诺。
8/28/2025 7:09:00 AM
Taryn
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
Gemini
马斯克
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
开发者
具身智能
xAI
生成式
神经网络
机器学习
3D
人形机器人
AI视频
RAG
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
AI模型
深度学习
亚马逊
架构
Transformer
MCP
编程
视觉
预测