AI在线 AI在线

4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗

4B小模型极限在哪里? 最新模型Jan-nano引起热议,它在智能体任务上超过671B的最新版DeepSeek-V3 0528,在SimpleQA基准上获得80.7分。 先来看一下它的实际表现,包括两个任务:对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。

4B小模型极限在哪里?

最新模型Jan-nano引起热议,它在智能体任务上超过671B的最新版DeepSeek-V3 0528,在SimpleQA基准上获得80.7分。

图片

先来看一下它的实际表现,包括两个任务:

  • 对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。
  • 汇总今日财经突发新闻,聚焦令人震惊的消息。

4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗

总结一下,Jan-nano的能力包括:

  • 在正确的提示词下,可以进行深度研究
  • 从搜索结果中有效地获取相关信息
  • 针对MCP协议优化,可无缝集成各种MCP服务器调用工具

再来看一下官方评估结果,与它同台竞技的不是闭源方案就是DeepSeek-v3这样的671B大型MoE模型。

图片

目前Jan-nano取得最高分80.7%,并且作者透露下一个版本的目标是85%。

图片

不过研究团队Menlo Research特别提醒大家,Jan-Nano只是在这一个指标上优于Deepseek-671B,并且在测试中使用了基于MCP的方法。

我们完全理解4B模型有其局限性,但看看它能走到多远总是很有趣的。

具体来说,Jano在Qwen3-4B上使用字节&清华开源的DAPO强化学习微调方法。

图片

团队称将很快发布详细的技术报告,敬请期待。

谁是Menlo Research?

Menlo Research是一个专注于AI和机器人技术的开放研发实验室,其主要目标为构建机器人的”大脑”。

创始人为一对夫妻Daniel Ong与Nicole Zhu,Nicole Zhu在斯坦福读人机交互硕士期间休学创业,此前在谷歌做过高级工程师。

图片

Menlo Research坚持用户拥有原则,产品都是开源的,设计为离线运行或自托管。

图片

此前Menlo Research的核心产品是Jan,一个可以100%离线运行的开源AI助手应用。

Jan被定位为ChatGPT的替代品,曾在推出数月后,在没有风险投资支持的情况下超过百万次下载,

图片

Jan的长远愿景是成为“自驱动计算机”,实现从用户操作计算机到计算机自主操作的转变,具体来说,规划中的能力包括。

  • 将用户指令转化为直接行动
  • 跨应用程序工作,无需手动切换
  • 学习用户的特定工作模式
  • 自主完成重复性任务

此外,Menlo Research还在新加坡Echelon展会上展出了一款人形机器人。

图片

Jan-nano模型下载:https://huggingface.co/Menlo/Jan-nano

Menlo Research:https://menlo.ai

相关资讯

5090跑《黑神话》飙到200+帧,英伟达DLSS也用上Transformer了

现在,打个游戏都用上Transformer了? 老黄的DLSS进行了一波大升级,换上了基于Transformer的新大脑。 用上新模型之后,光线重建和超分辨率,效果都变得更细腻了。
1/20/2025 7:00:00 AM
量子位

o1不是聊天模型!前SpaceX工程师:这样用o1才能解决复杂问题

「我是如何从讨厌o1到每天用它来解决我最重要的问题的? 我学会了如何正确使用它。 」Ben Hylak曾是SpaceX软件工程师、苹果VisionOS人机交互设计师,后来离职创立了Dawn Analytics。
1/20/2025 9:28:00 AM
新智元

两分钟完成论文调研!ByteDance Research推出论文检索智能体PaSa,远超主流检索工具

2025 被称为 Agent 元年,新年伊始,ByteDance Research 就推出了一款基于强化学习的智能体应用:论文检索智能体。 它可以模仿人类研究者调用搜索引擎、看论文、查参考文献。 繁琐冗长的论文调研,现在,只需要两分钟。
1/24/2025 8:45:00 AM
机器之心
  • 1