推理模型

小模型用推理反而性能下降15%！1.6M配对样本揭示推理能力真相

大家好，我是肆〇柒。在大语言模型领域，推理能力（reasoning）已成为备受推崇的技术亮点。从OpenAI的o1推理系列到开源社区的Qwen和Mistral模型，业界纷纷推出推理专用模型，思维链（Chain-of-Thought）更是成为标配。

10/27/2025 9:08:20 AM

肆零柒

Qwen又立功，全球最快开源模型诞生，超2000 tokens/秒！

全球最快的开源大模型来了——速度达到了每秒2000个tokens！虽然只有320亿参数（32B），吞吐量却是超过典型GPU部署的10倍以上的那种。它就是由阿联酋的穆罕默德·本·扎耶德人工智能大学（MBZUAI）和初创公司G42 AI合作推出的K2 Think。

9/10/2025 7:21:11 PM

十三

性能比肩 Gemini-2.5 pro、o4-mini：阿里通义千问 Qwen 3 推理模型超级进化，现已开源

AI在线 7 月 25 日消息，阿里通义千问今日宣布正式推出 Qwen3-235B-A22B 思考模型升级版本：Qwen3-235B-A22B-Thinking-2507。自千问 3 旗舰模型发布后，阿里通义千问团队一直在努力拓展大模型的推理性能，全新开源的 Qwen3-235B-A22B-Thinking-2507，在推理性能和通用能力上均实现巨大飞跃，号称可比肩 Gemini-2.5 pro、O4-mini 等顶尖闭源模型，并创下全球开源模型 SOTA 最佳性能表现：在编程（LiveCodeBench）、数学（AIME25）等核心能力上，Qwen3 推理模型实现了推理性能的再突破；在知识（SuperGPQA）、创意写作能力（WritingBench）、人类偏好对齐（Arena-Hard v2）、多语言能力（MultilF）等通用能力上，Qwen3 推理模型也取得了显著进步；新模型支持 256K 长文本理解，处理超长上下文不费力。 Qwen3-235B-A22B-Thinking-2507 目前已在魔搭社区、Hugging Face 开源，采用宽松的 Apache2.0 开源协议，人人均可免费下载商用。

7/25/2025 11:29:18 PM

汪淼

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

4B模型的数学推理能力和顶尖商业大模型差在哪里？香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：. 通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

7/9/2025 2:58:32 PM

不圆

有道推出“子曰3”模型，轻松破解数学难题，助力教育公平！

6月23日，网易有道正式推出并开源其最新的 “子曰3” 系列大模型，英文名为 Confucius3-Math。这一专注于数学教育的推理模型，能够在普通的消费级 GPU 上高效运行，成为国内首个如此低成本高性能的 AI 教育工具。在一系列数学推理任务中，“子曰3” 展现出了超越许多大规模通用模型的出色性能。

6/23/2025 6:00:39 PM

AI在线

全球领先水平！MiniMax开源首个推理模型M1

不知道还有多少人记得，AI 行业的六小虎。行业内都在说，他们已经沉寂好久了。上一次相关的项目发布，还是前一段时间我写的 MiniMax 声音模型的更新，Speech-02。

6/18/2025 7:42:52 AM

数字生命卡兹克

当人工智能推理遭遇瓶颈：大型推理模型的崩溃

最近，我们听说人工智能已经学会了思考。 OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思维模型——这些“大型推理模型”声势浩大地问世，有望在机器解决复杂问题方面取得突破。与之前那些仅仅通过模式匹配完成任务的模型不同，这些系统显然能够进行“真正的”推理，甚至拥有与人类思维相符的内心独白。

6/13/2025 1:00:00 AM

Mistral的首个强推理模型：拥抱开源，推理速度快10倍

大模型强推理赛道，又迎来一位重量级玩家。本周二，欧洲人工智能公司 Mistral AI 发布了 Magistral，这是一个全新的大语言模型（LLM）系列，展现了强大的推理能力。它能够进行不断反思，并解决更复杂的任务。

6/11/2025 2:39:50 PM

法国 AI 实验室 Mistral 推出推理模型 Magistral 系列，Small 版已开源

6 月 11 日消息，法国人工智能实验室 Mistral 周二宣布进军推理人工智能模型领域。 6 月 . 10 日，Mistral 正式推出其首个推理模型系列 .

6/11/2025 9:19:46 AM

远洋

AdaptThink：推理模型的自适应思考范式

大家好，我是肆〇柒。我前几天就看到这么一篇论文关于 AdaptThink。它主要讲的是如何通过强化学习，来实现Reason Model（推理模型如o1,R1）根据问题难度自适应选择思考模式（思考或不思考），以优化推理质量和效率的平衡。

5/28/2025 2:40:00 AM

肆零柒

Poe2025春季AI模型使用趋势报告：OpenAI与Anthropic双雄争霸可灵异军突起

全球知名AI模型集成平台Poe发布《2025春季AI模型使用趋势报告》，基于平台上数百万次用户交互，深入分析了文本、图像、视频、音频和推理模型的需求与使用份额变化。报告揭示了今年以来OpenAI GPT-4.1、Google Gemini2.5Pro、Kuaishou Kling等突破性模型的快速崛起，以及AI使用模式的深刻转变。 AIbase综合最新动态，独家解读这一报告的核心亮点及其对AI生态的深远影响。

5/19/2025 5:00:45 PM

AI在线

微软开源 Phi-4 推理模型：啰嗦AI，反卷出圈

AI圈子最有意思的事，已经不是“谁家模型参数最多”，而是——谁家小模型，能把大模型打趴下。最近，微软研究院开源了一款“小而强”的研究：Phi-4-reasoning-plus。这是一款专为深度结构化推理任务设计的开源语言模型。

5/8/2025 4:45:32 PM

文摘菌

小米开源“Xiaomi MiMo”大模型：为推理而生，以 7B 参数超越 OpenAI o1-mini

在数学推理和代码竞赛公开测评集上，MiMo 仅用 7B 的参数规模，超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。

4/30/2025 9:46:36 AM

清源

最先进推理模型！ OpenAI 推出 o3 和 o4-mini 模型

译者 | 崔皓审校 | 重楼开篇就在OpenAI推出 GPT 4.1 系列几天后，又发布了o3 和 o4-mini 的推理模型，这表明大模型正式迈向 AGI（人工通用智能）。 o3 和 o4-mini 不仅仅是 AI 模型；它们还具备智能性、自治性、可调用工具以及与真实软件对接的技能，是一个真正意义上的AI 系统。新模型不会被动工作；而是主动使用工具自动完成任务！

4/23/2025 8:30:05 AM

崔皓