微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

作者：故渊 2025-01-11 12:12

微软亚洲研究院旗下数学和人工智能研究团队昨日（1 月 10 日）发布博文，针对小语言模型，设计并开发了 rStar-Math 技术，专门用于解决数学问题。

微软亚洲研究院旗下数学和人工智能研究团队昨日（1 月 10 日）发布博文，针对小语言模型，设计并开发了 rStar-Math 技术，专门用于解决数学问题。

和微软之前推出的 Phi-4 不同，rStar-Math 采用蒙特卡洛树搜索（Monte Carlo Tree Search）进行推理，这种方法模拟了人类逐步解决问题的思维方式，能够将复杂问题分解成更小的部分，逐步求解。

研究人员要求模型输出自然语言描述和 Python 代码形式的“思维链”步骤，并将自然语言作为 Python 代码注释，仅使用 Python 代码输出训练模型。

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

研究人员训练了一个“策略模型”生成数学推理步骤，并使用“过程偏好模型”（PPM）选择最有希望的解题步骤。这两个模型通过四轮“自我进化”互相改进，不断提升性能。

研究人员使用了 74 万道公开的数学应用题及其解答作为初始数据，并利用上述两个模型生成了新的解题步骤。

测试结果显示，应用 rStar-Math 技术后，Qwen2.5-Math-7B 模型的准确率从 58.8% 跃升至 90.0%，将 Phi3-mini-3.8B 从 41.4% 提升到 86.4%，分别比 OpenAI 的 o1-preview 模型高 4.5% 和 0.9%。

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

研究团队已在 Hugging Face 上宣布，计划将 rStar-Math 的代码和数据在 GitHub 上公开，方便其他研究者使用和改进。

AI在线附上参考地址

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
Hugging Face

相关标签：

微软

盘点微软Ignite 2024大会上关于Azure AI的五大公告

微软在近日举行的Ignite . 2024大会上公布了一系列进展，标志着向自主AI代理战略的转变，旨在提高各个部门的运营效率和生产力。这项计划的核心，是把Copilot与基于代理的系统进行集成，反映出微软将辅助AI工具转变为能够以最少人为干预执行复杂任务的自主代理。

11/26/2024 3:08:59 PM

微软开源 Aurora AI 气象预报模型，微调后还可用于洋流 / 空气质量监测等领域

微软开源 Aurora AI 气象预报模型，结合深度学习与大规模数据处理，可精准预测天气、洋流和空气质量。该模型在热带气旋预测、海浪高度和空气质量预报中表现优异。已整合至 MSN 天气服务，并提供开发者试用。#AI气象预测# #微软开源#

5/27/2025 6:55:17 PM 漾仔

Mistral AI新模型对标GPT-4，不开源且与微软合作，网友：忘了初心

「欧洲版 OpenAI」的「最强开源大模型」，被微软收编了。生成式 AI 领域，又有重量级产品出现。周一晚间，Mistral AI 正式发布了「旗舰级」大模型 Mistral Large。与此前的一系列模型不同，这次 Mistral AI 发布的版本性能更强，体量更大，直接对标 OpenAI 的 GPT-4。而新模型的出现，也伴随着公司大方向的一次转型。随着 Mistral Large 上线，Mistral AI 推出了名为 Le Chat 的聊天助手（对标 ChatGPT），任何人都可以试试效果。试用链接：，Mi

2/27/2024 3:08:00 PM 机器之心

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

相关资讯

盘点微软Ignite 2024大会上关于Azure AI的五大公告

微软开源 Aurora AI 气象预报模型，微调后还可用于洋流 / 空气质量监测等领域

Mistral AI新模型对标GPT-4，不开源且与微软合作，网友：忘了初心