4B Qwen3逆袭671B DeepSeek！字节DAPO微调方法这么猛的吗

作者： 2025-06-17 08:45

4B小模型极限在哪里？最新模型Jan-nano引起热议，它在智能体任务上超过671B的最新版DeepSeek-V3 0528，在SimpleQA基准上获得80.7分。先来看一下它的实际表现，包括两个任务：对研究某公司目前的扩张情况，该公司的扩张正威胁着另一家公司的市场份额，并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。

4B小模型极限在哪里？

最新模型Jan-nano引起热议，它在智能体任务上超过671B的最新版DeepSeek-V3 0528，在SimpleQA基准上获得80.7分。

先来看一下它的实际表现，包括两个任务：

对研究某公司目前的扩张情况，该公司的扩张正威胁着另一家公司的市场份额，并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。
汇总今日财经突发新闻，聚焦令人震惊的消息。

4B Qwen3逆袭671B DeepSeek！字节DAPO微调方法这么猛的吗

总结一下，Jan-nano的能力包括：

在正确的提示词下，可以进行深度研究
从搜索结果中有效地获取相关信息
针对MCP协议优化，可无缝集成各种MCP服务器调用工具

再来看一下官方评估结果，与它同台竞技的不是闭源方案就是DeepSeek-v3这样的671B大型MoE模型。

目前Jan-nano取得最高分80.7%，并且作者透露下一个版本的目标是85%。

不过研究团队Menlo Research特别提醒大家，Jan-Nano只是在这一个指标上优于Deepseek-671B，并且在测试中使用了基于MCP的方法。

我们完全理解4B模型有其局限性，但看看它能走到多远总是很有趣的。

具体来说，Jano在Qwen3-4B上使用字节&清华开源的DAPO强化学习微调方法。

团队称将很快发布详细的技术报告，敬请期待。

谁是Menlo Research？

Menlo Research是一个专注于AI和机器人技术的开放研发实验室，其主要目标为构建机器人的”大脑”。

创始人为一对夫妻Daniel Ong与Nicole Zhu，Nicole Zhu在斯坦福读人机交互硕士期间休学创业，此前在谷歌做过高级工程师。

Menlo Research坚持用户拥有原则，产品都是开源的，设计为离线运行或自托管。

此前Menlo Research的核心产品是Jan，一个可以100%离线运行的开源AI助手应用。

Jan被定位为ChatGPT的替代品，曾在推出数月后，在没有风险投资支持的情况下超过百万次下载，

Jan的长远愿景是成为“自驱动计算机”，实现从用户操作计算机到计算机自主操作的转变，具体来说，规划中的能力包括。

将用户指令转化为直接行动
跨应用程序工作，无需手动切换
学习用户的特定工作模式
自主完成重复性任务

此外，Menlo Research还在新加坡Echelon展会上展出了一款人形机器人。

Jan-nano模型下载：https://huggingface.co/Menlo/Jan-nano

Menlo Research：https://menlo.ai

相关标签：

模型智能工具

相关资讯

5090跑《黑神话》飙到200+帧，英伟达DLSS也用上Transformer了

5090跑《黑神话》飙到200+帧，英伟达DLSS也用上Transformer了

现在，打个游戏都用上Transformer了？老黄的DLSS进行了一波大升级，换上了基于Transformer的新大脑。用上新模型之后，光线重建和超分辨率，效果都变得更细腻了。

1/20/2025 7:00:00 AM 量子位

o1不是聊天模型！前SpaceX工程师：这样用o1才能解决复杂问题

o1不是聊天模型！前SpaceX工程师：这样用o1才能解决复杂问题

「我是如何从讨厌o1到每天用它来解决我最重要的问题的？我学会了如何正确使用它。」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师，后来离职创立了Dawn Analytics。

1/20/2025 9:28:00 AM 新智元

两分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具

两分钟完成论文调研！ByteDance Research推出论文检索智能体PaSa，远超主流检索工具

2025 被称为 Agent 元年，新年伊始，ByteDance Research 就推出了一款基于强化学习的智能体应用：论文检索智能体。它可以模仿人类研究者调用搜索引擎、看论文、查参考文献。繁琐冗长的论文调研，现在，只需要两分钟。

1/24/2025 8:45:00 AM 机器之心