阿里开源通义DeepResearch，性能超OpenAI、DeepSeek旗舰模型

作者：新闻助手 2025-09-17 05:12

9月17日凌晨，阿里开源旗下首个深度研究Agent模型——通义DeepResearch。该模型在HLE、BrowseComp-zh、GAIA等多个权威评测集上取得SOTA成绩(State-of-the-art)，超越OpenAI Deep Research、DeepSeek-V3.1等Agent模型。目前，通义DeepResearch的模型、框架和方案均已全面开源，用户可在Github、Hugging Face和魔搭社区社区下载模型和代码。

通义DeepResearch登顶开源第一

深度研究是近一年来的研究热点，谷歌、OpenAI、Anthropic等主流AI企业均在投入相关技术和产品。然而，现有方法普遍采用“单窗口、线性累加”的信息处理模式，所有中间思路和检索到的信息堆积在单一上下文中。这种模式在处理长周期任务时，Agent会面临“认知空间窒息”和“不可逆的噪声污染”的挑战，导致推理能力下降，最终难以完成真正长程、复杂的研究任务。

为此，通义团队构建了一套以合成数据驱动、贯穿预训练与后训练的完整训练链路。该链路以Qwen3-30B-A3B 模型为基座进行优化，为了确保训练的高效性与模型的鲁棒性，团队创新性地设计了覆盖真实环境与虚拟环境的RL算法验证与真实训练模块，并结合高效异步强化学习算法及自动化数据策展（Data Curation）流程，显著提升了模型的迭代速度和泛化能力。

在推理阶段，团队设计了 ReAct 和基于自研的IterResearch的Heavy 两种模式，前者用于精准考察模型的基础内在能力，后者则通过 test-time scaling 策略，充分挖掘并展现了模型所能达到的性能上限，即使在长任务中，也能实现高质量的推理。

阿里开源通义DeepResearch，性能超OpenAI、DeepSeek旗舰模型

在Humanity's Last Exam（HLE）、BrowseComp、BrowseComp-ZH、GAIA、xbench-deepsearch、WebWalkerQA以及Frames等权威Agent评测集上，通义DeepResearch模型以3B激活参数，性能超越基于OpenAI o3、DeepSeek V3.1和Claude-4-Sonnet等旗舰模型的ReAct Agent。

今年以来，阿里已连续开源WebWalker、WebDancer和WebSailor等多款检索和推理智能体，并全部斩获开源SOTA成绩。

刷新复杂Agent推理记录！阿里通义开源网络智能体超越DeepSeek R1，Grok-3

在互联网信息检索任务中，即使是很强的LLM，有时也会陷入“信息迷雾”之中：当问题简单、路径明确时，模型往往能利用记忆或一两次搜索就找到答案；但面对高度不确定、线索模糊的问题，模型就很难做对。举个例子，我们平常问一个直白的问题（比如“某城市的人口是多少”），搜索引擎一查即可。但如果问题被设计得非常复杂，比如“这首与南美某首都密切相关的乐曲，其歌词作者在21世纪初获颁当地荣誉称号，其旋律创作者曾就读于哥伦比亚西部的一所著名艺术学院。

7/7/2025 4:25:40 PM 梦晨

月之暗面 Kimi K2 Thinking 训练成本被曝仅 460 万美元，性能登顶人类终极考试

国产大模型再放“王炸”。月之暗面（Moonshot AI）于本周四正式开源其迄今最强的思考型大模型——Kimi K2Thinking，不仅在权威基准“人类终极考试”(HLE)中以44.9%的得分力压GPT-5、Grok-4、Claude4.5等国际闭源巨头，更以仅460万美元(约合3277万元人民币)的训练成本，掀起一场高性价比AI革命。这一成绩尤为震撼之处在于其极致的成本控制。

11/10/2025 9:51:03 AM AI在线

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ

11月28日，阿里云通义团队发布全新AI推理模型QwQ-32B-Preview，并同步开源。评测数据显示，预览版本的QwQ，已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩OpenAI o1。 QwQ（Qwen with Questions）是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的AI推理模型。

11/28/2024 5:31:00 PM 新闻助手

阿里开源通义DeepResearch，性能超OpenAI、DeepSeek旗舰模型

相关资讯

刷新复杂Agent推理记录！阿里通义开源网络智能体超越DeepSeek R1，Grok-3

月之暗面 Kimi K2 Thinking 训练成本被曝仅 460 万美元，性能登顶人类终极考试

推理水平对标OpenAI o1！阿里云通义开源最新推理模型QwQ