AI在线 AI在线

判别式约束优化

NeurIPS25高分论文|以判别式监督学习强化推理LLM,解决难度偏差和熵崩塌难题

作者介绍:德州农工大学博士生李港,专注于设计和应用高效算法到大规模机器学习和人工智能任务,包括增强大型基础模型的后训练算法、对抗性鲁棒学习算法和分布鲁棒性学习算法。 曾发表数篇论文在 NeurIPS、ICML、KDD 等顶会, 并作为主要贡献者之一发布了针对不平衡分类任务的知名软件包 LibAUC。 DeepSeek-R1 的成功吸引了人们对群体相对策略优化(GRPO)作为大型推理模型(LRM)强化学习方法的广泛关注。
10/26/2025 7:04:00 PM
机器之心
  • 1