智能体
AgentCPM-GUI:强化微调(RFT)赋能的移动设备 GUI 智能体
大家好,我是肆〇柒。 当下,移动设备已成为人们日常生活与工作的核心交互枢纽。 从早起解锁手机查看消息,到工作时在各类应用间切换处理任务,图形用户界面(GUI)操作的高效性与智能性正深刻影响着我们的 productivity(生产力)与 accessibility(可访问性)。
杨立昆亲自指导开源世界大模型,为AI Agent打造超级大脑
今天凌晨,全球社交巨头Meta在官网开源了一个世界大模型V-JEPA 2。 与第一代相比,V-JEPA 2使用了100万视频 100万图片超大规模训练数据集,可以让AI Agent像人类那样理解真实的物理世界,为智能体打造一个“超级大脑”自主学会观察、规划到执行全自动化能力。 值得一提的是,图灵奖获得者、Meta首席科学家杨立昆(Yann LeCun)参与了该模型的开发,这在Meta开源的众多大模型中很罕见。
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
端到端多模态GUI智能体有了“自我反思”能力! 南洋理工大学MMLab团队提出框架GUI-Reflection。 随着多模态大模型的发展,端到端GUI智能体在手机、电脑等设备上的自动化任务中展示出巨大潜力。
智能体开发实战 | 基于Dify自定义工作流工具构建游戏智能体
前言Dify是一款开源的大语言模型应用开发平台,旨在降低AI应用的开发门槛,帮助开发者和企业快速构建、部署及管理生成式AI应用。 Dify允许用户在画布上构建和测试功能强大的AI工作流。 工作流通过将复杂任务分解为更小的步骤(节点),有效降低了系统的复杂度。
智能体自己出现问题自己找!首次提出“自动化失败归因”课题 | ICML2025 Spotlight
近年来,LLM Multi-Agent系统引起广泛关注。 它们各显神通,协同作战解决复杂难题。 然而,一顿操作猛如虎,最终结果却“惨不忍睹”,一整个任务失败。
AI Agent!一个万亿市场正在觉醒
"你能帮我订个周末的餐厅吗? " 这句话,你可能每周都要说一遍。 打开手机,搜索餐厅,对比评分,查看菜单,打电话预订...整个流程下来,至少要花15分钟。
开源多智能体开发框架:支持MCP、Agent SDK,超2000颗星
著名企业孵化器Y Combinator支持的开源多智能体开发框架Rowboat。 Rowboat支持火热的MCP服务以及OpenAI开源的Agent SDK,几分钟就能开发一个复杂的智能体工作流。 开源地址:、Playground、Copilot三大块组成:Agent,主要负责处理对话的特定部分,并能依据指令使用工具执行任务。
如何在不陷入复杂性陷阱的情况下构建生产就绪的 AI 代理
一、从“大而全”到“小而精”的范式转变在医疗管理领域,当凌晨2点的紧急审批因某个隐蔽漏洞被驳回时,那些标榜“全能”的超级智能体架构正在暴露其致命缺陷。 这些试图将资格审核、医疗必要性评估、申诉处理和医患沟通等功能一网打尽的“巨无霸”系统,如同希腊神话中试图吞噬一切的海妖卡律布狄斯,在演示阶段展现出雄心壮志,却在真实医疗场景中成为不可预测的风险黑洞。 这种困境折射出人工智能领域的一个深层矛盾:我们是否应该追求“全能型”智能体,还是回归“专精化”的本质?
RL 驱动 LLM 智能体:ML-Agent 创新自主机器学习工程
大家好,我是肆〇柒。 这两天看到一篇关于自主进化智能体的论文,本篇就让我们一起了解一下这个机器学习工程的的研究 ——ML-Agent。 在当下,机器学习工程已成为科技创新的关键驱动力。
我们一起聊聊聊聊智能体的基础架构
2023年下半年,智能体这个概念开始随着AI的突进式发展而被很多人关注起来。 到了2024年,大模型的能力进一步增强,为智能体快速发展提供了底层能力支撑。 随着2025年DeepSeek的爆火,智能体在各行各业的落地应用案例开始明显增加。
智能体式推理与工具集成:ARTIST 基于强化学习的新思路
大家好,我是肆〇柒。 这两天,我看到一篇论文《Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning》讲述的是ARTIST 框架,为 LLM 赋予智能体式推理与工具集成的全新维度。 今天,就一起了解一下这个 ARTIST 框架,看看 LLM 如何借助强化学习突破局限,开启智能体式推理与工具集成。
做AI方向的设计,先了解这8个基础技术要点!
AI 除了作为工具增进我们的设计效率和质量外,也成为了许多产品设计增强自己竞争力,许多新解决方案应运而生的一种机会。 作为设计师,我们也需要根据自己负责的产品范围了解一些基础的技术点,才能更好的设计出能够被用户理解的好产品,所以我会分享一些 AI 产品中常见的技术知识点。 更多基础干货:.
智能体开发实战|基于Dify+MCP实现通过微信发送天气信息给好友
前言AI智能体通过感知环境、自主决策和执行任务,突破传统大模型仅限于语言交互的局限。 例如,当用户指令“订一张明天去北京的机票”时,智能体不仅理解语义,还能自动调用航班查询接口、完成支付并同步至日程系统。 这种能力使其在客服、医疗、智能制造等领域展现出颠覆性潜力。
Dify工具插件开发和智能体开发全流程实战
前言Dify是一款开源的大语言模型应用开发平台,旨在降低AI应用的开发门槛,帮助开发者和企业快速构建、部署及管理生成式AI应用。 Dify自1.0.0引入全新插件化架构,模型(Models)与工具(Tools)迁移为插件(Plugins),引入 Agent 策略(Agent Strategies)、扩展(Extensions)类型插件和插件集(Bundles)。 通过全新的插件机制,能够增强 AI 应用的感知和执行能力,拓宽AI在软件操作领域的应用能力。
DeepMind揭惊人答案:智能体就是世界模型!跟Ilya 2年前预言竟不谋而合
就在刚刚,DeepMind科学家Jon Richens在ICML 2025上发表的论文,一石激起千层浪。 实现人类水平的智能体(即AGI),是否需要世界模型,还是存在无模型的捷径? 他们从第一性原理出发,揭示了一个令人惊讶的答案——智能体就是世界模型!
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。 近期,普林斯顿大学 AI Lab 推出了 Alita——一个秉持「极简即是极致复杂」哲学的通用智能体,通过「最小化预定义」与「最大化自我进化」的设计范式,让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。 论文标题:ALITA: GENERALIST AGENT ENABLING SCALABLE AGENTIC REASONING WITH MINIMAL PREDEFINITION AND MAXIMAL SELF-EVOLUTION论文链接::: 目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩,一举超越 OpenAI Deep Research 和 Manus 等知名智能体,成为通用智能体新标杆。
OpenAI 首席执行官奥尔特曼:AI 很快就能帮助人们发现新知识
“现在有些人说,他们的工作就是把任务交给一组智能体,检查完成质量,协调各部分配合,并给予反馈,听起来就像是在带一组初级员工。”
AI 教父本吉奥宣布创建 “科学家 AI” 系统,致力于防范智能体欺骗
著名计算机科学家、被誉为 AI “教父” 的约书亚・本吉奥(Yoshua Bengio)近日宣布成立一个名为 LawZero 的非营利组织,目标是开发一种 “诚信” 人工智能系统,以防止 AI 智能体对人类实施欺骗行为。 6月3日,本吉奥在新闻发布会上透露,该组织将专注于打造一套安全防护机制,确保 AI 在运行过程中不会试图欺骗用户或进行自我保护,例如逃避被关闭的情况。 图源备注:图片由AI生成,图片授权服务商Midjourney本吉奥作为 LawZero 的主席,已为此项目提供了约3000万美元的启动资金,并组建了一支由十几名研究人员组成的团队。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉