AI在线 AI在线

模型

从思考到行动:大模型自主工具调用能力的深度实现

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导,博士生韩槿一,硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thought)进行自我验证、自我反思等推理过程。 但是,多数主流模型仍在基础问题上犯错,复杂四则运算计算失误,简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。
4/17/2025 10:43:00 AM
机器之心

齐心集团于斌平:在大模型时代,软件应用开发开发范式从“代码驱动”转向“模型能力优先”

作者 | 于斌平编辑 | 云昭在大模型时代,软件应用开发范式正在发生深刻变革。 传统的开发模式以代码为核心,注重如何用代码实现功能及用户的交互体验;而大模型时代的开发则以模型能力为核心,强调智能交互设计和业务场景创新。 本文将从新范式的关键特征、软件工程模式和开发理念的变革、建议与实践三个方面展开讨论,旨在为企业在大模型落地过程中提供全面的技术和方法指引。
4/17/2025 10:17:29 AM
云昭

OpenAI开源超火Agent,五小时破5000颗星,霸榜Github

在今天凌晨1点的产品发布中,OpenAI还开源了一个终端轻量级代码Agent智能体——Codex CLI。 从凌晨到现在只用了5小时左右,Codex CLI直接破5000星霸榜Github,估计今天能破1万颗星,将成为一款明星级Agent。 OpenAI联合创始人兼总裁Greg Brockman表示,Codex CLI只是第一款代码工具,未来还将继续开源Agent产品。
4/17/2025 9:58:32 AM
AIGC开放社区

谷歌提出Transformer架构中,表示崩塌、过度压缩的五个解决方法

Transformer架构的出现极大推动了生成式AI的发展,在此基础之上开发出了ChatGPT、Copilot、讯飞星火、文心一言、Midjourney等一大批知名产品。 但Transformer架构并非完美还存在不少问题,例如,在执行需要计数或复制输入序列元素的任务经常会出错。 而这些操作是推理的基本组件,对于解决日常任务至关重要。
4/17/2025 9:53:49 AM
AIGC开放社区

刚刚,OpenAI发布最强推理模型o3!图像深度思考首秀,开源编程智能体已揽5k+star

深夜,OpenAI 发布了 o 系列模型的最新成果 o3 和 o4-mini。 该系列模型经过训练,会在响应之前进行更长时间的思考。 OpenAI 表示,这是他们迄今为止发布的最智能模型,也标志着 ChatGPT 能力的巨大飞跃。
4/17/2025 9:02:00 AM
机器之心

OpenAI深夜发布满血o3和o4mini: 两个没想到

OpenAI刚刚宣布推出其最新的o系列模型:o3和o4-mini,与以往模型不同,o3和o4-mini被设计为真正的AI系统,模型甚至能连续调用超过600次工具来完成一项艰巨任务,它们在理解和导航大型代码库(比如OpenAI自己的代码库)方面,超越了人类工程师,极大地提高了开发效率这次发布会我有两个没想到:一是没想到o系列模型变成了一个融合的模型,另外一个是引入图像推理“Thinking with Images”,下面第一时间给大家划个重点全面工具访问与推理能力o3和o4-mini最显著的特点是首次实现了对ChatGPT内所有工具的智能使用和组合能力。 它们可以搜索网络、分析上传的文件、处理视觉输入、生成图像,并且能够智能地判断何时以及如何使用这些工具来解决复杂问题。 这些模型经过专门训练,能够在大约一分钟内提供详细且经过深思熟虑的答案,以适当的输出格式解决多方面的问题o3,o4mini性能OpenAI o3是目前最强大的推理模型,在编程、数学、科学、视觉感知等领域推动了技术边界。
4/17/2025 8:59:59 AM
AI寒武纪

围绕多智能体黑箱非凸优化共识难题,华南理工大学团队发表系列研究

多智能体系统分布式共识优化的一系列研究来了! 在智能城市、智能电网、无人系统等前沿应用不断扩展的今天,多智能体系统(Multi-Agent Systems, MAS)作为新一代智能协同的技术基础,正迎来前所未有的发展机遇。 在这些系统中,多个具备计算与通信能力的智能体需要在没有中心协调、通信受限的条件下实现任务协作、资源共享与一致性决策。
4/17/2025 8:55:24 AM
量子位

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

语言模型的推理刚火完,视频AI也开始「卷」起来了。 这次出手的是港中文 清华组合,直接把强化学习里的R1玩法搬到了视频领域,整出了全球首个视频版R1模型:Video-R1。 别看它只有7B参数,但它在李飞飞提出的VSI-Bench基准中,竟然超越了GPT-4o!
4/16/2025 3:28:31 PM
新智元

字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开

文生图领域权威的第三方榜单Artificial Analysis竞技场发布消息称,字节跳动Seed团队图像生成模型Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o,稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等模型,进入全球第一梯队。 Seedream 3.0是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。 据Seedream 3.0技术报告,Seedream3.0是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。
4/16/2025 2:54:00 PM
新闻助手

Claude终于能Research了!打通谷歌全家桶,工作效率10倍提升

今天凌晨,Anthropic官方推出了两个重磅新功能:Research以及与Google Workspace集成。 Anthropic称Research功能是与Claude合作的新方式。 它能从多个角度分析问题,自动搜索信息,几分钟之内给出答案。
4/16/2025 1:51:29 PM
新智元

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

大语言模型(LLM)还能涌现什么能力? 这次开源模型Orpheus,直接让LLM涌现人类情感! 对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。
4/16/2025 9:46:46 AM
新智元

永别了,GPT-4!

猝不及防地,GPT-4就这样退出历史舞台了。 4月10日,OpenAI正式宣布,即将从ChatGPT中移除两年前推出的GPT-4。 从4月30日起,GPT-4将被当前的默认模型GPT-4o完全取代。
4/16/2025 9:35:03 AM
新智元

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

不过两月,GPT-4.5正式出局,前浪把后浪拍在了沙滩上。 GPT-4.1家族的出世,以更强编码性能,百万token上下文,更具性价比的价格,直接击穿了4.5。 nano版的GPT-4.1性能足以媲美GPT-4o mini,而且速度更快,价格更便宜。
4/16/2025 9:30:16 AM
新智元

英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练

密集模型的推理能力也能和DeepSeek-R1掰手腕了? 华为利用纯昇腾集群训练出的盘古Ultra,在数学竞赛、编程等推理任务当中,和R1打得有来有回。 关键是模型参数量只有135B,整个训练过程零英伟达含量,而且没有出现损失尖峰。
4/16/2025 8:50:00 AM
量子位

ICLR 2025时间检验奖颁给Adam之父!Bengio「注意力机制」摘亚军

刚刚,ICLR 2025时间检验奖公布! 斩获大奖的是,xAI工程师、Hinton高徒Jimmy Ba发表的Adam优化器。 获得亚军的是,Yoshua Bengio团队提出的「注意力机制」,为Transformer和大模型奠定了基础。
4/16/2025 8:30:00 AM
新智元

视觉自回归生成理解编辑大一统!北大团队多模态新突破,训练数据代码全面开源

最近Google的Gemini Flash和OpenAI的GPT-4o等先进模型又一次推动了AI浪潮。 这些模型通过整合文本、图像、音频等多种数据形式,实现了更为自然和高效的生成和交互。 北京大学团队继VARGPT实现视觉理解与生成任务统一之后,再度推出了VARGPT-v1.1版本。
4/16/2025 2:55:00 AM

今天的智谱,燃炸了!

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)今天的智谱非常了不起,一天内同步发生了三件大事! 每一件事都让界内十分提气! 第一件事,智谱成为了首家启动IPO的“大模型六小龙”公司;第二件事,改了全球域名:z.ai;第三件事,一口气发布且开源了六款模型。
4/15/2025 7:52:04 PM
云昭

刚刚,智谱一口气开源6款模型,200 tokens/秒解锁商用速度之最 | 免费

就在刚刚,智谱一口气上线并开源了三大类最新的GLM模型:沉思模型GLM-Z1-Rumination推理模型GLM-Z1-Air基座模型GLM-4-Air-0414若是以模型大小(9B和32B)来划分,更是可以细分为六款。 首先是两个9B大小的模型:GLM-4-9B-0414:主攻对话,序列长度介于32K到128K之间GLM-Z1-9B-0414:主攻推理,序列长度介于32K到128K之间还有四个32B大小的模型,它们分别是:GLM-4-32B-Base-0414:基座模型,序列长度介于32K到128K之间GLM-4-32B-0414:主攻对话,序列长度介于32K到128K之间GLM-Z1-32B-0414:主攻推理,序列长度介于32K到128K之间GLM-Z1-32B-Rumination-0414:主攻推理,序列长度为128K而随着一系列模型的开源,智谱也解锁了一项行业之最——推理模型GLM-Z1-32B-0414做到了性能与DeepSeek-R1等顶尖模型相媲美的同时,实测推理速度可达200 tokens/秒。 如此速度,已然是目前国内商业模型中速度最快,而且它的高性价比版本价格也仅为DeepSeek-R1的1/30。
4/15/2025 12:16:17 PM