模型

最强o1也刚刚及格！中科大等团队测试视频CoT推理能力：多数模型不及格

视频理解的CoT推理能力，怎么评？中科大等团队提出了评估基准——VCR-Bench，里面包含七个独立评估维度的任务框架，每个维度针对性地考察模型的不同能力（如时空推理、因果推断等）。为确保评估的全面性和可靠性，每个维度都设计了100余条高质量样本。

4/18/2025 9:13:00 AM 量子位

异议！顶流AI决战「逆转裁判」：o1险胜Gemini 2.5登顶、Llama 4零分垫底

当谈到AI为何能从「预测下一个词」中诞生智慧时，Ilya Sutskever曾用一个生动的比喻来解释。想象你在读一本悬疑小说，如果仅凭前面的线索就能在最后一页推断出罪犯是谁，那么你对这个故事的理解无疑是深刻的。同样，AI通过学习海量文本，掌握了从字面到语义的「线索」，展现出惊人的智能。

4/18/2025 9:07:00 AM 新智元

UC伯克利：让推理模型少思考，准确率反而更高了！

让推理模型不要思考，得到的结果反而更准确？ UC伯克利新研究发现，强制要求模型跳过思考过程，推理能力却比正常思考还好。例如在定理证明任务当中，“不思考”模式仅使用30%的Token，就能实现和完整思考一样的准确率。

4/18/2025 8:42:52 AM 量子位

o3全网震撼实测：AGI真来了？最强氛围编程秒杀人类，却被曝捏造事实

昨夜o3的发布，让人不尽感慨：打了这么久嘴炮的OpenAI，这回终于实实在在拿出了点真东西。史上首次，模型能够用图像思考，视觉推理达到巅峰。许多网友实测后，大感惊艳。

4/17/2025 2:09:52 PM 新智元

从思考到行动：大模型自主工具调用能力的深度实现

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导，博士生韩槿一，硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力：理解上下文关联、拆解多步骤问题、甚至通过思维链（Chain - of - Thought）进行自我验证、自我反思等推理过程。但是，多数主流模型仍在基础问题上犯错，复杂四则运算计算失误，简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。

4/17/2025 10:43:00 AM 机器之心

齐心集团于斌平：在大模型时代，软件应用开发开发范式从“代码驱动”转向“模型能力优先”

作者 | 于斌平编辑 | 云昭在大模型时代，软件应用开发范式正在发生深刻变革。传统的开发模式以代码为核心，注重如何用代码实现功能及用户的交互体验；而大模型时代的开发则以模型能力为核心，强调智能交互设计和业务场景创新。本文将从新范式的关键特征、软件工程模式和开发理念的变革、建议与实践三个方面展开讨论，旨在为企业在大模型落地过程中提供全面的技术和方法指引。

4/17/2025 10:17:29 AM 云昭

OpenAI开源超火Agent，五小时破5000颗星，霸榜Github

在今天凌晨1点的产品发布中，OpenAI还开源了一个终端轻量级代码Agent智能体——Codex CLI。从凌晨到现在只用了5小时左右，Codex CLI直接破5000星霸榜Github，估计今天能破1万颗星，将成为一款明星级Agent。 OpenAI联合创始人兼总裁Greg Brockman表示，Codex CLI只是第一款代码工具，未来还将继续开源Agent产品。

4/17/2025 9:58:32 AM AIGC开放社区

谷歌提出Transformer架构中，表示崩塌、过度压缩的五个解决方法

Transformer架构的出现极大推动了生成式AI的发展，在此基础之上开发出了ChatGPT、Copilot、讯飞星火、文心一言、Midjourney等一大批知名产品。但Transformer架构并非完美还存在不少问题，例如，在执行需要计数或复制输入序列元素的任务经常会出错。而这些操作是推理的基本组件，对于解决日常任务至关重要。

4/17/2025 9:53:49 AM AIGC开放社区

刚刚，OpenAI发布最强推理模型o3！图像深度思考首秀，开源编程智能体已揽5k+star

深夜，OpenAI 发布了 o 系列模型的最新成果 o3 和 o4-mini。该系列模型经过训练，会在响应之前进行更长时间的思考。 OpenAI 表示，这是他们迄今为止发布的最智能模型，也标志着 ChatGPT 能力的巨大飞跃。

4/17/2025 9:02:00 AM 机器之心

OpenAI深夜发布满血o3和o4mini: 两个没想到

4/17/2025 8:59:59 AM AI寒武纪

围绕多智能体黑箱非凸优化共识难题，华南理工大学团队发表系列研究

多智能体系统分布式共识优化的一系列研究来了！在智能城市、智能电网、无人系统等前沿应用不断扩展的今天，多智能体系统（Multi-Agent Systems, MAS）作为新一代智能协同的技术基础，正迎来前所未有的发展机遇。在这些系统中，多个具备计算与通信能力的智能体需要在没有中心协调、通信受限的条件下实现任务协作、资源共享与一致性决策。

4/17/2025 8:55:24 AM 量子位

视频推理R1时刻，7B模型反超GPT-4o！港中文清华推出首个Video-R1

语言模型的推理刚火完，视频AI也开始「卷」起来了。这次出手的是港中文清华组合，直接把强化学习里的R1玩法搬到了视频领域，整出了全球首个视频版R1模型：Video-R1。别看它只有7B参数，但它在李飞飞提出的VSI-Bench基准中，竟然超越了GPT-4o！

4/16/2025 3:28:31 PM 新智元

字节Seedream 3.0追平GPT-4o入文生图第一梯队！即梦、豆包全量上线，技术报告公开

文生图领域权威的第三方榜单Artificial Analysis竞技场发布消息称，字节跳动Seed团队图像生成模型Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o，稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等模型，进入全球第一梯队。 Seedream 3.0是字节近日发布的新一代文生图主力模型，目前已在即梦、豆包等平台全量开放。据Seedream 3.0技术报告，Seedream3.0是一个原生高分辨率、支持中英双语的图像生成基础模型，无需后处理即可实现 2K 分辨率图像直出，适配多比例场景，同时针对小字体高保真生成、多行文本排版等业界难题，模型也取得了突破性的效果表现。

4/16/2025 2:54:00 PM 新闻助手

Claude终于能Research了！打通谷歌全家桶，工作效率10倍提升

今天凌晨，Anthropic官方推出了两个重磅新功能：Research以及与Google Workspace集成。 Anthropic称Research功能是与Claude合作的新方式。它能从多个角度分析问题，自动搜索信息，几分钟之内给出答案。

4/16/2025 1:51:29 PM 新智元

AI涌现人类情感！希腊「乐之神」Orpheus开源，单卡可跑语音流式推理

大语言模型（LLM）还能涌现什么能力？这次开源模型Orpheus，直接让LLM涌现人类情感！对此，Canopy Labs的开源开发者Elias表示Orpheus就像人类一样，已经拥有共情能力，能从文本中产生潜在的线索，比如叹息、欢笑和嗤笑。

4/16/2025 9:46:46 AM 新智元

永别了，GPT-4！

猝不及防地，GPT-4就这样退出历史舞台了。 4月10日，OpenAI正式宣布，即将从ChatGPT中移除两年前推出的GPT-4。从4月30日起，GPT-4将被当前的默认模型GPT-4o完全取代。

4/16/2025 9:35:03 AM 新智元

GPT-4.1全网实测来袭，惨遭谷歌Gemini碾压！大佬猜测：从GPT-4.5蒸馏的

不过两月，GPT-4.5正式出局，前浪把后浪拍在了沙滩上。 GPT-4.1家族的出世，以更强编码性能，百万token上下文，更具性价比的价格，直接击穿了4.5。 nano版的GPT-4.1性能足以媲美GPT-4o mini，而且速度更快，价格更便宜。

4/16/2025 9:30:16 AM 新智元

英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

密集模型的推理能力也能和DeepSeek-R1掰手腕了？华为利用纯昇腾集群训练出的盘古Ultra，在数学竞赛、编程等推理任务当中，和R1打得有来有回。关键是模型参数量只有135B，整个训练过程零英伟达含量，而且没有出现损失尖峰。

4/16/2025 8:50:00 AM 量子位

资讯热榜

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉