AI在线 AI在线

模型

最强o1也刚刚及格!中科大等团队测试视频CoT推理能力:多数模型不及格

视频理解的CoT推理能力,怎么评? 中科大等团队提出了评估基准——VCR-Bench,里面包含七个独立评估维度的任务框架,每个维度针对性地考察模型的不同能力(如时空推理、因果推断等)。 为确保评估的全面性和可靠性,每个维度都设计了100余条高质量样本。
4/18/2025 9:13:00 AM
量子位

异议!顶流AI决战「逆转裁判」:o1险胜Gemini 2.5登顶、Llama 4零分垫底

当谈到AI为何能从「预测下一个词」中诞生智慧时,Ilya Sutskever曾用一个生动的比喻来解释。 想象你在读一本悬疑小说,如果仅凭前面的线索就能在最后一页推断出罪犯是谁,那么你对这个故事的理解无疑是深刻的。 同样,AI通过学习海量文本,掌握了从字面到语义的「线索」,展现出惊人的智能。
4/18/2025 9:07:00 AM
新智元

UC伯克利:让推理模型少思考,准确率反而更高了!

让推理模型不要思考,得到的结果反而更准确? UC伯克利新研究发现,强制要求模型跳过思考过程,推理能力却比正常思考还好。 例如在定理证明任务当中,“不思考”模式仅使用30%的Token,就能实现和完整思考一样的准确率。
4/18/2025 8:42:52 AM
量子位

o3全网震撼实测:AGI真来了?最强氛围编程秒杀人类,却被曝捏造事实

昨夜o3的发布,让人不尽感慨:打了这么久嘴炮的OpenAI,这回终于实实在在拿出了点真东西。 史上首次,模型能够用图像思考,视觉推理达到巅峰。 许多网友实测后,大感惊艳。
4/17/2025 2:09:52 PM
新智元

从思考到行动:大模型自主工具调用能力的深度实现

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导,博士生韩槿一,硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thought)进行自我验证、自我反思等推理过程。 但是,多数主流模型仍在基础问题上犯错,复杂四则运算计算失误,简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。
4/17/2025 10:43:00 AM
机器之心

齐心集团于斌平:在大模型时代,软件应用开发开发范式从“代码驱动”转向“模型能力优先”

作者 | 于斌平编辑 | 云昭在大模型时代,软件应用开发范式正在发生深刻变革。 传统的开发模式以代码为核心,注重如何用代码实现功能及用户的交互体验;而大模型时代的开发则以模型能力为核心,强调智能交互设计和业务场景创新。 本文将从新范式的关键特征、软件工程模式和开发理念的变革、建议与实践三个方面展开讨论,旨在为企业在大模型落地过程中提供全面的技术和方法指引。
4/17/2025 10:17:29 AM
云昭

OpenAI开源超火Agent,五小时破5000颗星,霸榜Github

在今天凌晨1点的产品发布中,OpenAI还开源了一个终端轻量级代码Agent智能体——Codex CLI。 从凌晨到现在只用了5小时左右,Codex CLI直接破5000星霸榜Github,估计今天能破1万颗星,将成为一款明星级Agent。 OpenAI联合创始人兼总裁Greg Brockman表示,Codex CLI只是第一款代码工具,未来还将继续开源Agent产品。
4/17/2025 9:58:32 AM
AIGC开放社区

谷歌提出Transformer架构中,表示崩塌、过度压缩的五个解决方法

Transformer架构的出现极大推动了生成式AI的发展,在此基础之上开发出了ChatGPT、Copilot、讯飞星火、文心一言、Midjourney等一大批知名产品。 但Transformer架构并非完美还存在不少问题,例如,在执行需要计数或复制输入序列元素的任务经常会出错。 而这些操作是推理的基本组件,对于解决日常任务至关重要。
4/17/2025 9:53:49 AM
AIGC开放社区

刚刚,OpenAI发布最强推理模型o3!图像深度思考首秀,开源编程智能体已揽5k+star

深夜,OpenAI 发布了 o 系列模型的最新成果 o3 和 o4-mini。 该系列模型经过训练,会在响应之前进行更长时间的思考。 OpenAI 表示,这是他们迄今为止发布的最智能模型,也标志着 ChatGPT 能力的巨大飞跃。
4/17/2025 9:02:00 AM
机器之心

OpenAI深夜发布满血o3和o4mini: 两个没想到

OpenAI刚刚宣布推出其最新的o系列模型:o3和o4-mini,与以往模型不同,o3和o4-mini被设计为真正的AI系统,模型甚至能连续调用超过600次工具来完成一项艰巨任务,它们在理解和导航大型代码库(比如OpenAI自己的代码库)方面,超越了人类工程师,极大地提高了开发效率这次发布会我有两个没想到:一是没想到o系列模型变成了一个融合的模型,另外一个是引入图像推理“Thinking with Images”,下面第一时间给大家划个重点全面工具访问与推理能力o3和o4-mini最显著的特点是首次实现了对ChatGPT内所有工具的智能使用和组合能力。 它们可以搜索网络、分析上传的文件、处理视觉输入、生成图像,并且能够智能地判断何时以及如何使用这些工具来解决复杂问题。 这些模型经过专门训练,能够在大约一分钟内提供详细且经过深思熟虑的答案,以适当的输出格式解决多方面的问题o3,o4mini性能OpenAI o3是目前最强大的推理模型,在编程、数学、科学、视觉感知等领域推动了技术边界。
4/17/2025 8:59:59 AM
AI寒武纪

围绕多智能体黑箱非凸优化共识难题,华南理工大学团队发表系列研究

多智能体系统分布式共识优化的一系列研究来了! 在智能城市、智能电网、无人系统等前沿应用不断扩展的今天,多智能体系统(Multi-Agent Systems, MAS)作为新一代智能协同的技术基础,正迎来前所未有的发展机遇。 在这些系统中,多个具备计算与通信能力的智能体需要在没有中心协调、通信受限的条件下实现任务协作、资源共享与一致性决策。
4/17/2025 8:55:24 AM
量子位

视频推理R1时刻,7B模型反超GPT-4o!港中文清华推出首个Video-R1

语言模型的推理刚火完,视频AI也开始「卷」起来了。 这次出手的是港中文 清华组合,直接把强化学习里的R1玩法搬到了视频领域,整出了全球首个视频版R1模型:Video-R1。 别看它只有7B参数,但它在李飞飞提出的VSI-Bench基准中,竟然超越了GPT-4o!
4/16/2025 3:28:31 PM
新智元

字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开

文生图领域权威的第三方榜单Artificial Analysis竞技场发布消息称,字节跳动Seed团队图像生成模型Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o,稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等模型,进入全球第一梯队。 Seedream 3.0是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。 据Seedream 3.0技术报告,Seedream3.0是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。
4/16/2025 2:54:00 PM
新闻助手

Claude终于能Research了!打通谷歌全家桶,工作效率10倍提升

今天凌晨,Anthropic官方推出了两个重磅新功能:Research以及与Google Workspace集成。 Anthropic称Research功能是与Claude合作的新方式。 它能从多个角度分析问题,自动搜索信息,几分钟之内给出答案。
4/16/2025 1:51:29 PM
新智元

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

大语言模型(LLM)还能涌现什么能力? 这次开源模型Orpheus,直接让LLM涌现人类情感! 对此,Canopy Labs的开源开发者Elias表示Orpheus就像人类一样,已经拥有共情能力,能从文本中产生潜在的线索,比如叹息、欢笑和嗤笑。
4/16/2025 9:46:46 AM
新智元

永别了,GPT-4!

猝不及防地,GPT-4就这样退出历史舞台了。 4月10日,OpenAI正式宣布,即将从ChatGPT中移除两年前推出的GPT-4。 从4月30日起,GPT-4将被当前的默认模型GPT-4o完全取代。
4/16/2025 9:35:03 AM
新智元

GPT-4.1全网实测来袭,惨遭谷歌Gemini碾压!大佬猜测:从GPT-4.5蒸馏的

不过两月,GPT-4.5正式出局,前浪把后浪拍在了沙滩上。 GPT-4.1家族的出世,以更强编码性能,百万token上下文,更具性价比的价格,直接击穿了4.5。 nano版的GPT-4.1性能足以媲美GPT-4o mini,而且速度更快,价格更便宜。
4/16/2025 9:30:16 AM
新智元

英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练

密集模型的推理能力也能和DeepSeek-R1掰手腕了? 华为利用纯昇腾集群训练出的盘古Ultra,在数学竞赛、编程等推理任务当中,和R1打得有来有回。 关键是模型参数量只有135B,整个训练过程零英伟达含量,而且没有出现损失尖峰。
4/16/2025 8:50:00 AM
量子位