智能体
美团提出首个语音交互GUI智能体,端到端语音训练能力优于传统文本训练
只需要动动嘴就可以驱动GUI代理? 由美团和浙江大学联合推出的GUIRoboTron-Speech——让用户解放双手,直接对计算机“发号施令”。 这是首个能够直接利用语音指令和设备屏幕截图进行端到端(End-to-End)决策的自主GUI智能体,旨在为用户提供更直接、高效且无障碍的交互体验。
6/20/2025 9:00:00 AM
智能体开发实战 | 基于Dify+MCP实现理财助手智能体
前言AI智能体通过感知环境、自主决策和执行任务,突破传统大模型仅限于语言交互的局限。 例如,当用户指令“订一张明天去北京的机票”时,智能体不仅理解语义,还能自动调用航班查询接口、完成支付并同步至日程系统。 这种能力使其在客服、医疗、智能制造等领域展现出颠覆性潜力。
6/19/2025 3:30:00 AM
AI大模型应用开发
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!
物流路径选择、人员排班、工厂调度、电网平衡、旅行路线……这些贴近现实的优化任务,看似日常,实则难度极高。 难点在于:一旦问题规模扩大,传统算法几乎无法计算出最优解。 通常只能依赖启发式或近似算法来接近答案。
6/18/2025 9:00:00 AM
AI智能体的三种"人格":为什么99%的人都用错了?
昨天和一位创业朋友聊天,他抱怨说:"花了几万块做的Agent客服,效果还不如人工。 用户稍微问点复杂的,就答非所问。 " 我问他:"你选对Agent类型了吗?
6/18/2025 3:30:00 AM
大数据AI智能圈
突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。 该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。 论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation论文地址:::多智能体系统的「领域壁垒」随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。
6/17/2025 3:28:03 PM
AgentRM 奖励建模:智能体泛化能力的“导航仪”与“加速器”
大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)基础智能体正逐渐成为解决复杂交互任务的关键力量。 然而,一个不容忽视的问题是:尽管它们在训练中见过的任务上表现出色,但面对未见过的新任务时,泛化能力却往往不尽人意。
6/17/2025 9:50:30 AM
肆零柒
本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题
昨晚,油管千万级大V The Diary Of A CEO放出了,与图灵奖、诺贝尔奖获得者,被誉为AI教父的Geoffrey Hinton最新深度专访。 二人以对话形式主要探讨了AI的发展、安全、应用;虽然AI存在一定的风险,但在帮助人类提升科研、工作、生活水平质量等方面是非常高效。 当然也会抢走一部分人的工作,从而创造一些全新的职位。
6/17/2025 9:26:09 AM
智能体协作的力量:Anthropic 的「Research」多智能体实践
大家好,我是肆〇柒。 在 AI 领域,多智能体系统正逐渐成为解决复杂任务的关键技术之一。 昨天,我看到一篇出自 Anthropic 官网 Engineering 板块的博文,主要分享了Anthropic 在 Research 这个功能对于多智能体的工程实践。
6/17/2025 6:28:08 AM
肆零柒
基于Dify构建客服智能体全流程实战,揭秘提升RAG效果关键
前言Dify是一款开源的大语言模型应用开发平台,旨在降低AI应用的开发门槛,帮助开发者和企业快速构建、部署及管理生成式AI应用。 Dify的知识库功能将RAG管线上的各环节可视化,提供了一套简单易用的用户界面来方便应用构建者管理个人或者团队的知识库,并能够快速集成至 AI 应用中。 为了达到最好的RAG检索效果,需要选择正确的分段设置。
6/17/2025 1:00:00 AM
AI大模型应用开发
AI改变世界!微软发布700个真实AI Agent、Copilot应用案例
我们经常会听到AI改变世界的观点,但除了问答、查询、总结之外,似乎很少会看到其他真实的AI应用案例。 所以,微软作为全球AI领导者之一,发布了700个真实的Agent智能体、Microsoft Copilot应用案例,来帮助大家真实地了解到底AI是如何改变我们的工作模式。 这些客户有世界500强企业,有各领域的独角兽,也有世界常青藤名校,业务范围涵盖金融、医疗、科技、教育、汽车制造、零售、电商、能源、航空航天等众多领域。
6/16/2025 9:02:00 AM
多智能体在「燃烧」Token!Anthropic公开发现的一切
「Anthropic 发布了他们如何使用多个 Claude AI 智能体构建多智能体研究系统的精彩解释。 对于任何构建多智能体系统的人来说,这是一本必读的指南。 」刚刚,X 知名博主 Rohan Paul 强力推荐了 Anthropic 一项新研究。
6/16/2025 8:39:00 AM
AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
我们知道,大模型技术爆发的原点可能在谷歌一篇名为《Attention is All You Need》的论文上。 如今,在通用人工智能(AGI)初现曙光,Scaling Laws 却疑似接近极限的当口,又是谷歌对未来方向进行了一番思考,想来想去还是只有五个词:论文标题:General agents need world models论文链接: ICML 收录。 他们发现:如果一个 AI 智能体能够处理复杂的、长期的任务,那么它一定学习过一个内部世界模型——我们甚至可以通过观察智能体的行为来提取它。
6/13/2025 2:27:05 PM
AI 智能体到底应该如何构建?分享 Github 上收获 4k stars 的 12 条原则
1.AI Agent 是如何走到今天的1.1 我的观点仅供参考无论您是智能体领域的新手,还是像我这样固执的老兵,我都将试图说服您摒弃对 AI Agent 的大部分固有认知,退一步,从第一性原理(first principles)出发重新思考它们。 (如果你错过了不久前 OpenAI 发布的内容,这里有个剧透预警:把更多智能体逻辑塞进 API 后面并非正解)2.智能体本质上是软件,让我们简要追溯其发展历程让我们回溯智能体的发展脉络。 2.1 60 年前这个阶段重点探讨的是有向图(DGs)及其无环版本 —— 有向无环图(DAGs)。
6/13/2025 3:11:00 AM
BaihaiI DP
AgentCPM-GUI:强化微调(RFT)赋能的移动设备 GUI 智能体
大家好,我是肆〇柒。 当下,移动设备已成为人们日常生活与工作的核心交互枢纽。 从早起解锁手机查看消息,到工作时在各类应用间切换处理任务,图形用户界面(GUI)操作的高效性与智能性正深刻影响着我们的 productivity(生产力)与 accessibility(可访问性)。
6/13/2025 1:30:00 AM
肆零柒
杨立昆亲自指导开源世界大模型,为AI Agent打造超级大脑
今天凌晨,全球社交巨头Meta在官网开源了一个世界大模型V-JEPA 2。 与第一代相比,V-JEPA 2使用了100万视频 100万图片超大规模训练数据集,可以让AI Agent像人类那样理解真实的物理世界,为智能体打造一个“超级大脑”自主学会观察、规划到执行全自动化能力。 值得一提的是,图灵奖获得者、Meta首席科学家杨立昆(Yann LeCun)参与了该模型的开发,这在Meta开源的众多大模型中很罕见。
6/12/2025 9:12:00 AM
端到端GUI智能体首次实现“犯错-反思-修正”闭环,模拟人类认知全过程
端到端多模态GUI智能体有了“自我反思”能力! 南洋理工大学MMLab团队提出框架GUI-Reflection。 随着多模态大模型的发展,端到端GUI智能体在手机、电脑等设备上的自动化任务中展示出巨大潜力。
6/12/2025 8:58:00 AM
智能体开发实战 | 基于Dify自定义工作流工具构建游戏智能体
前言Dify是一款开源的大语言模型应用开发平台,旨在降低AI应用的开发门槛,帮助开发者和企业快速构建、部署及管理生成式AI应用。 Dify允许用户在画布上构建和测试功能强大的AI工作流。 工作流通过将复杂任务分解为更小的步骤(节点),有效降低了系统的复杂度。
6/12/2025 1:30:00 AM
AI大模型应用开发
资讯热榜
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型!
AI 模型“炒股”比拼!DeepSeek 收益超14%,Gemini2.5Pro 惨亏四成
具身智能学界业界思想「惊人的统一」?美团在IROS开了个学术年会
OpenAI强化Sora 2保护政策,确保艺人声音与肖像权不被侵犯
刚刚,ChatGPT终于可以走遍整个互联网了!OpenAI深夜炸街:原生ChatGPT集成、即时理解、主动执行,浏览器赛道鲨疯了
OpenAI首款ChatGPT浏览器发布!现在就能免费下载使用
Andrej Karpathy评DeepSeek-OCR论文:图像输入可能成为大语言模型新方向
告别抽卡!Vidu Q2多图参考生视频功能重磅上线
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
芯片
腾讯
AI for Science
Stable Diffusion
苹果
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
AI视频
生成
大语言模型
RAG
百度
具身智能
Sora
工具
GPU
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
视频生成
场景
深度学习
DeepMind
架构
视觉
生成式AI
预测
Transformer
编程
AI模型
伟达
特斯拉
Copilot