AI在线 AI在线

Thinking Machine

Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比

Thinking Machine最新研究正在被热议! 创始人、OpenAI前CTO Mira Murati亲自转发后,一众围观大佬开始惊叹其研究价值(截不完、根本截不完):根据Mira Murati的提炼,原来他们提出了一种让小模型更懂专业领域的LLM(大语言模型)后训练方法——On-Policy Distillation (在线策略蒸馏)。 这个方法的精髓,可以打个比方。
10/28/2025 9:32:17 AM
一水
  • 1