AI在线 AI在线

Best-of-N

扩展外部测试时Scaling Law,中关村学院新发现:轻量级验证器可解锁LLM推理最优选择

本文由北京中关村学院、哈尔滨工业大学、中科院自动化所等多家单位作者共同完成,第一作者为北京中关村学院与哈尔滨工业大学联培博士生俞斌,指导教师包括:哈尔滨工业大学教授 & 哈工大青岛研究院院长王佰玲,北京中关村学院 & 中关村人工智能研究院具身智能方向负责人陈凯。 研究背景:Test-Time Scaling 的两种范式在大语言模型(LLM)席卷各类复杂任务的今天,“测试时扩展”(Test-Time Scaling,TTS)已成为提升模型推理能力的核心思路 —— 简单来说,就是在模型 “答题” 时分配更多的计算资源来让它表现更好。 严格来说,Test-Time Scaling 分成两类:内部 Test-Time Scaling:以 DeepSeek-R1 为代表的推理型大模型通过拉长思维链来实现内部的测试时扩展。
11/6/2025 2:31:00 PM
机器之心
  • 1