AI在线 AI在线

模型

OpenAI 多智能体研究框架:构建高效协作的AI代理系统

在人工智能快速发展的今天,单一AI模型已难以满足复杂任务的需求,多智能体系统正成为解决复杂问题的重要方向。 OpenAI推出的多智能体研究框架(Multi-AI Agent Research Framework)通过协调多个各司其职的AI代理,实现了远超单一模型的研究能力和应用价值。 本文将深入解析这一框架的核心原理、架构设计、实际应用及未来潜力,为开发者和企业提供全面的参考指南。
7/28/2025 1:33:00 AM
大模型之路

Hinton上海演讲:大模型跟人类智能很像,警惕养虎为患

深度学习之父、诺奖得主Hinton在中国的首次公开演讲,实录来了! 演讲主题是《数字智能是否会取代生物智能》。 主要观点如下:人类有可能就是大语言模型,人类也会和大语言模型一样有幻觉。
7/27/2025 6:08:51 PM

AI教父Hinton对话上海AI Lab周伯文:多模态聊天机器人已经具有意识,让AI聪明和让AI善良是两件事

AI圈众所周知,家族渊源与中国颇深的Geoffrey Hinton因为患有严重的背疾几乎无法长途旅行,只在去年因为领取诺奖才勉强“带伤”飞抵瑞典。 所以当本周的一张他与上海市领导会面照片出现在国内互联网络的时候,立刻引爆了朋友圈——终于可以在中国一睹教父真容。 △图片来自“上海发布”不过Hinton此次的中国上海之行,参与的基本都是闭门以及定向邀请研讨,7月26日下午,他与上海人工智能实验室主任周伯文的对话此次中国行程里的唯一一场面向AI和科学前沿研究者的公开对话活动,这也是他中国之行的最后一天,这场浓缩高密度智慧的尖峰对话,将Hinton的上海之行推向新高潮。
7/27/2025 6:08:51 PM

训练数据爆减至1/1200!清华&生数发布国产视频具身基座模型,高效泛化复杂物理操作达SOTA水平

机器人能通过普通视频来学会实际物理操作了! 来看效果,对于所有没见过的物品,它能精准识别并按照指令完成动作。 比如清理桌面垃圾,或者是从零食筐里找到人类想要的糖果。
7/25/2025 3:22:20 PM

AI教父Hinton首次现身中国,合照全网刷屏!预警AI觉醒临界点已至

深度学习之父、图灵奖巨头、2024物理学诺奖得主Hinton,亲自来中国了! 这似乎是第一次,Hinton在公开活动上以真人肉身踏上中国的土地。 现在,这张他和市委书记陈吉宁会见的照片,已经在全网刷屏了。
7/25/2025 3:10:15 PM

北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势

如今,GPT-4o、Gemini 2.5 Pro 等多模态基础模型在对话、代码生成和数学推理等任务中已经达到甚至超越了人类水平。 研究者开始探索如何将这种智能从数字世界延伸至物理空间,以实现具身智能。 这其中最受关注的前沿方向之一,便是视觉 - 语言 - 动作模型(Vision-Language-Action Models,简称 VLA)。
7/25/2025 10:19:44 AM

媲美Claude 4,支持100万上下文!阿里开源超强代码AI Agent模型

阿里巴巴开源了超强AI Agent模型Qwen3-Coder-480B-A35B-Instruct。 根据阿里公布的测试数据显示,Qwen3-Coder在OpenAI发布的Agent测试基准SWE-bench Verified中,500轮交互的测试分数达到了69.6%,常规分数为67%,可媲美最强闭源代码模型之一Claude Sonnet 4的70.4%和68%。 同时Qwen3-Coder也大幅度超越了DeepSeek R1-0528版本的41.4%和V3-0324版本的38.8%。
7/25/2025 10:06:05 AM

突破单token预测局限!南洋理工首次将多token预测引入微调,编程任务准确率提升11.67%

告别Next-token,现在模型微调阶段就能直接多token预测! 从GPT到Claude,当前主流LLM都依赖next-token prediction(下一token预测)进行训练,但它却让AI很难真正理解跨越多token的完整概念。 于是南洋理工大学最近提出了一项新技术——概念感知微调(CAFT),首次实现将multi-token prediction(多token预测)引入微调阶段,让模型能够像人类一样理解和学习完整概念。
7/25/2025 9:24:43 AM

IEEE ICDCS’ 25 | 提速79%!上交大新方法优化企业级AI流程调度

复合LLM应用 (compound LLM applications) 是一种结合大语言模型(LLM)与外部工具、API、或其他LLM的高效多阶段工作流应用。 ⽬前,服务这些应⽤任务需要⾯对运⾏时⻓不确定、⼯作流结构不确定等问题,这对现有集群任务调度算法提出了极大挑战,并严重影响任务运⾏效率。 为了解决上述问题,上海交通大学朱怡飞教授团队联合江行智能提出调度框架LLMSched,通过引入三类新节点来扩展传统任务表征方法实现复合LLM应用任务的有效表征,借助贝叶斯网络识别可降低不确定性的关键节点,并以信息熵衡量节点的熵减程度。
7/25/2025 9:22:13 AM

因为不用AI写代码,我在终面挂了 | 一个程序员的奇葩面试经历

“因为不是AI First,我在终面挂了。 ”最近,一外国小哥的经历意外火了! 他表示自己几个月前被解雇,终于来到了一家自己本来很看好的初创公司,并且走到了终面,与CEO面对面。
7/25/2025 8:45:00 AM

面试官:聊聊RAG的执行流程?

RAG、MCP 和 FunctionCall 等都是 AI 的核心技术,同时也是面试中最长问的知识点,那么今天就来看下:RAG 技术及其执行流程。 概述RAG(Retrieval-Augmented Generation,检索增强生成)是指在将原始问题发送给大语言模型之前,先通过外部知识库将数据进行注入,之后先在知识库中检索相关信息,然后再将检索结果和原始问题一起发送给大模型组织、整理答案的一种技术手段。 通过这种实现方式,大语言模型可以获取到特定领域的相关信息,并能够利用这些信息进行回复,从而降低了发生幻觉的可能性。
7/25/2025 1:45:00 AM
磊哥

如何实现可验证的Agentic Workflow?MermaidFlow开启安全、稳健的智能体流程新范式

随着大语言模型技术的持续突破与火热发展,AI 智能体正从单点能力迈向复杂系统协作,多智能体系统(Multi-Agent Systems, MAS)成为学术和产业界聚焦的新前沿。 在这一背景下,「Agentic Workflow」作为面向智能体自主决策与协作流程自动生成的技术理念,正成为多智能体系统研究和应用的探索热点。 为提升智能体系统的自主化与智能化,谷歌、上海 AI Lab 等国内外领先团队陆续推出了 Meta-GPT、ADAS、AFlow 等创新性 Agentic Workflow 工作,大力推动利用大模型实现任务规划、分工协作与流程优化的自动化进程。
7/24/2025 11:41:47 AM

首个多模态工业信号基座模型FISHER,权重已开源,来自清华&上交等

近期,来自清华大学、上海交通大学、北京华控智加科技有限公司和华北电力大学的研究者联合发布首个多模态工业信号基座模型 FISHER,采用搭积木的方法对异质工业信号进行统一建模。 目前技术报告和权重均已开源,欢迎使用! 论文链接: 仓库:,越来越多的工业设备被安装上传感器以监控工作状态。
7/24/2025 11:38:40 AM

AI越训练,越会「满嘴跑火车」!普林伯克利重磅揭秘,RLHF竟是罪魁祸首?

你有没有觉得,AI有时候像在「满嘴跑火车」? GPT滔滔不绝抛出一堆看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己在说什么? 最近,一项重磅研究《Machine Bullshit》火了。
7/24/2025 10:43:46 AM

刚刚!UCLA杨林团队证明:仅凭提示词,Gemini 2.5 Pro就可以拿到IMO2025金牌

最近大家应该都被OpenAI和谷歌的内部模型获得IMO2025金牌的消息刷屏了,但是正式参赛的公开的模型03high,Gemini 2.5 pro等表现很差,连铜牌都没拿到,不过现在又有了一个新情况刚刚发布在arXiv上的研究论文《Gemini 2.5 Pro Capable of Winning Gold at IMO 2025*》证明Gemini 2.5 Pro本体通过适当提示就可以获得IMO 2025金牌论文地址:(UCLA 电子与计算机工程系副教授)和黄溢辰撰写,详细阐述了他们如何利用谷歌最新的Gemini 2.5 Pro模型,成功解决了6道2025年国际数学奥林匹克(IMO)竞赛题目中的5道,达到了IMO金牌得主水平核心方法该研究的真正创新之处,在于设计了一套由两个核心角色解题者和验证者构成的自我验证流水线。 这两个角色均由Gemini 2.5 Pro扮演,但通过截然不同且高度特化的提示词(Prompt)来引导,使其各司其职,形成了高效的协作与迭代机制流水线流程如下图所示:初始解题 : 模型首先尝试对问题进行解答。
7/24/2025 10:36:51 AM

浙大校友打造AI代码测试神器,零代码零bug,30分钟创建网站

零代码、零bug,30分钟即可创建新网站。 更惊人的是,它能让AI写代码准确率从42%跃升至93%。 这是浙大校友专为AI编程设计打造的智能测试平台——TestSprite 2.0,据介绍是行业首个。
7/24/2025 10:25:46 AM

首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准

在语义分割领域,无监督领域自适应(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在将有标签的源域知识迁移到无标签的目标域。 随着数据规模和多样性的迅速提升,该任务日益重要。 目前主流研究集中于图像UDA-SS,视频UDA-SS近年来逐渐开始受到关注。
7/24/2025 9:17:00 AM

突发!特朗普刚刚发布《美国AI计划》,OpenAI、微软、亚马逊成大赢家

今天凌晨,美国白宫官网消息,特朗普公布了《美国AI行动计划》,以保证美国毫无争议地成为全球AI霸主。 该计划主要有三大支柱,加速AI创新、构建AI基础设施以及主导国际外交与安全,涵盖90多项具体行政命令。 其中,废除限制AI创新监管条例,加速发电场、水资源、半导体芯片等基础设施建设,这对于像OpenAI、微软、亚马逊、谷歌、Meta等AI巨头来说非常有利。
7/24/2025 9:15:06 AM