AI在线 AI在线

ARGRE

NeurIPS 2025 | ARGRE框架实现高效LLM解毒:自回归奖励引导,安全对齐更快、更准、更轻

作者为北京航空航天大学的肖宜松,刘艾杉,应宗浩,刘祥龙,新加坡国立大学的梁思源,新加坡南洋理工大学的陶大程。 本文已被 NeurIPS 2025 录用。 LLM 已在智能创作、企业服务等领域广泛应用,但其内容安全问题仍是落地过程中的关键挑战。
10/25/2025 10:54:00 PM
机器之心
  • 1