智能体
让视觉语言模型像o3一样动手搜索、写代码!Visual ARFT实现多模态智能体能力
在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。 具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中的思考」。 尽管开源研究社区在纯文本的智能体能力方面(比如函数调用和工具集成)已取得显著进展,但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍处于起步阶段。
5/27/2025 3:23:05 PM
百度心响 iOS 版正式上线,智能体应用实现全面覆盖
最近,百度心响 iOS 版正式上线,这款多智能体协作应用的发布,标志着智能体应用的普及进入了一个全新阶段。 用户只需在苹果的 APP Store 中搜索 “心响” 即可免费下载,安卓用户也能自由使用,让所有人都可以轻松体验到这款应用的便捷。 心响 APP 的使用门槛非常低,无需邀请码且每日使用次数不限,这一点在智能体应用中相对少见。
5/27/2025 3:01:00 PM
AI在线
我国首个软件开发 AI 智能体标准发布,20 余家巨头联手参编
中国信息通信研究院联合中国工商银行、百度、腾讯、阿里、华为等二十余家头部企业,正式发布《面向软件工程智能体的技术和应用要求第 1 部分:开发智能体》(标准编号 AIIA / T 0219-2025)。
5/27/2025 1:44:54 PM
故渊
如何访问和使用 OpenAI Codex?
译者 | 布加迪审校 | 重楼“软件工程正在发生变革;到 2025 年底,它将焕然一新。 ”Greg Brockman在OpenAI 发布会上的开场白为接下来的活动定下了基调。 OpenAI随后发布了Codex,这是一款旨在与开发者协同工作的云原生软件智能体。
5/27/2025 8:14:29 AM
布加迪
智能体「Agent」技术全景:挑战、机遇与未来
大家好,我是肆〇柒。 这篇论文的研究来自 MetaGPT、Montréal & Mila人工智能研究所、南洋理工大学、美国阿贡国家实验室、悉尼大学、宾夕法尼亚州立大学、微软亚洲研究院、伊利诺伊大学厄巴纳-香槟分校、香港科技大学、南加州大学、耶鲁大学、斯坦福大学、佐治亚大学、俄亥俄州立大学、阿卜杜拉国王科技大学、杜克大学、香港理工大学、谷歌 DeepMind 以及加拿大高等研究院(CIFAR)等众多研究者的集体智慧与前瞻思考,历时半年创作而成。 这篇论文的质量很高,为我们综述了 AI Agent 领域的全景现状,能看的出来是花了大心思的。
5/27/2025 2:00:00 AM
肆零柒
智能体常用策略FunctionCalling和ReAct有什么区别?
Dify 内置了两种 Agent 策略:Function Calling 和 ReAct,但二者有什么区别呢? 在使用时又该如何选择呢? 接下来我们一起来看。
5/27/2025 12:00:00 AM
磊哥
金蝶范式:从工具到生态,解码企业管理 AI 新时代
如今,大模型技术已经成为企业数智化的必修课。 然而,如何用上大模型,怎么用好大模型,却让很多企业陷入两难境地。 高昂的落地成本、复杂的场景适配需求,以及盲目跟风导致的投入产出失衡,企业最终陷入了“为 AI 而 AI”的困境。
5/26/2025 11:06:01 AM
鸢玮
Microsoft 推出 Magentic-UI:网页多智能体,革新式人机协作
大家好,我是肆〇柒。 在当下,现代生产力与网页活动深度交织。 从信息检索、表单填写,到精准导航各类仪表盘,网页任务贯穿工作流程始终。
5/26/2025 10:03:42 AM
肆零柒
多模态混合检索与多智能体RAG的破局之道
AI的感知困境:一只眼睛的世界我们习惯了AI能够处理文字、分析数据,但在处理复杂信息时,传统AI面临着三大感知困境:文字与图像割裂好比戴着眼罩工作的设计师,AI只能读懂文字,却看不懂图表中的趋势线、饼图中的占比关系。 OCR技术让AI能提取图像中的文字,却无法理解一张财务图表所传达的"销售额正在快速增长"这类视觉信息。 这就像让一个人只通过摸索来理解一幅画,注定失之偏颇。
5/26/2025 9:49:59 AM
大数据AI智能圈
312条轨迹激发241%性能!上交大与SII开源电脑智能体,超越 Claude 3.7
自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL)算法把电脑智能体的能力推向新高,引发全球范围广泛关注。 业界普遍认为,需要海量的轨迹数据或复杂的强化学习才能实现电脑智能体的水平突破——这可能意味着大量的人工轨迹标注,以及大规模虚拟机环境的构建,以支撑智能体的学习与优化。 然而,来自上海交通大学和 SII 的最新研究却给出了一个非共识答案:仅需 312 条人类标注轨迹,使用 Claude 3.7 Sonnet 合成更丰富的动作决策,就能激发模型 241% 的性能,甚至超越 Claude 3.7 Sonnet extended thinking 模式,成为 Windows 系统上开源电脑智能体的新一代 SOTA。
5/26/2025 9:21:00 AM
AI 模型 4o → o3:OpenAI 升级 Operator 智能体,浏览器交互更稳定、更准确
科技媒体 bleepingcomputer 今天(5 月 24 日)发布博文,报道称 OpenAI 升级 Operator 智能体,从 4o 升级到 o3 模型,大幅提升推理能力。
5/24/2025 9:26:54 AM
故渊
进化智能体 AlphaEvolve:科学发现与算法优化的新引擎
大家好,我是肆〇柒。 今天,我们来聊一个非常有趣且前沿的Agent技术——AlphaEvolve。 这是一个由 Google DeepMind 开发的进化型编码智能体,它通过结合大型语言模型(LLM)和进化算法,为科学发现和算法优化带来了另外一种可能性。
5/23/2025 3:00:00 AM
肆零柒
ACL 2025 | 大模型乱试错、盲调用?KnowSelf让智能体有「知识边界感知」能力
在 AI 领域,大模型智能体的发展日新月异。 我们今天要介绍的这篇 ACL 2025 论文——《Agentic Knowledgeable Self-awareness》,聚焦于如何提升智能体的「知识边界感知」能力,使其在复杂任务规划中更加得心应手,为智能体的可靠应用提供了新思路。 论文标题:Agentic Knowledgeable Self-awareness论文链接:: 秒速读版本KnowSelf 聚焦于大模型智能体在决策过程中所面临的「知识边界感知」问题。
5/22/2025 9:07:00 AM
如何防止智能体成为数据安全威胁
每家公司都存在信息缺口和瓶颈,归根结底,这正是AI为企业带来的真正价值:扩大信息获取渠道,帮助人们连接更多信息点。 但是,当你部署一个像智能体这样的系统,该系统连接着企业的每一个数据源,旨在回答问题、主动从数百个应用程序或部门中挖掘洞察,并采取行动(无论是否有人类提出要求),会发生什么呢?你会得到一个可能极大提升生产力的智能体,但同时也可能成为一个重大的安全风险。 好了,别急着渲染末日氛围——这个问题并非完全新鲜,毕竟,近六成的安全漏洞都是由人为造成的。
5/22/2025 7:10:00 AM
Rahul
零代码配置多Agent,腾讯云正式发布“智能体开发平台”
2025年以来,随着 DeepSeek 等大模型技术的持续突破,AI 智能体热度持续攀升。 全球科技巨头与初创企业纷纷入局,智能体正加速向落地演进,成为企业实现降本增效、重塑业务流程的关键驱动力。 5月21日,在“2025腾讯云AI产业应用峰会”上,腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声宣布大模型知识引擎全面升级为“腾讯云智能体开发平台(TCADP)”。
5/21/2025 2:20:50 PM
代码智能体占领GitHub!自动修bug、加功能、写文档,一台手机就能指挥
GitHub上新代码智能体Copilot Coding Agent,从此可以bug自动修,功能自动加,文档自动写。 有开发者表示真的很棒,已经用它解决了一个拖延很久的小问题。 甚至在手机版APP就能完成全部操作。
5/20/2025 9:59:15 AM
新的自主式AI工具带来新的威胁:智能体泛滥
你可能已经拥有一个用于开发和管理智能体的平台,甚至可能有两个或更多,这种智能体的泛滥使得智能体能够在企业的更多领域中运作,但也带来了更高的复杂性、增加了安全顾虑,并可能损害投资回报率。 在过去的一年里,供应商们一直在急于将智能体产品添加到他们的产品组合中。 微软、AWS、谷歌、IBM、Salesforce、ServiceNow、Workday和SAP都已经涉足这一领域,而数据管理软件提供商Informatica本周也承诺将在其智能数据管理云中添加智能体,以自动化数据处理流程。
5/20/2025 7:00:00 AM
Anirban
编程革命彻底爆发!刚刚,OpenAI最强智能体上线ChatGPT
从今天起,AI编程正式开启新时代! 刚刚,Greg Brockman带队与OpenAI六人团队开启线上直播,震撼发布了一款云端AI编程智能体——Codex。 用奥特曼的话来说就是,一个人就能打造无数爆款应用的时代来了!
5/17/2025 8:55:41 AM
新智元
资讯热榜
全新开源的DeepSeek-OCR,可能是最近最惊喜的模型!
AI 模型“炒股”比拼!DeepSeek 收益超14%,Gemini2.5Pro 惨亏四成
具身智能学界业界思想「惊人的统一」?美团在IROS开了个学术年会
OpenAI强化Sora 2保护政策,确保艺人声音与肖像权不被侵犯
刚刚,ChatGPT终于可以走遍整个互联网了!OpenAI深夜炸街:原生ChatGPT集成、即时理解、主动执行,浏览器赛道鲨疯了
OpenAI首款ChatGPT浏览器发布!现在就能免费下载使用
告别抽卡!Vidu Q2多图参考生视频功能重磅上线
Andrej Karpathy评DeepSeek-OCR论文:图像输入可能成为大语言模型新方向
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
芯片
腾讯
AI for Science
Stable Diffusion
苹果
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
AI视频
生成
RAG
大语言模型
百度
具身智能
Sora
工具
GPU
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
视频生成
场景
深度学习
DeepMind
架构
视觉
生成式AI
预测
Transformer
编程
AI模型
伟达
特斯拉
Copilot