AI在线 AI在线

Specification Alignment

规范对齐时代:GPT-5 断层领先,让安全与行为边界更明晰

张昊然,上海交通大学人工智能学院的博士一年级学生,主要研究兴趣为大模型推理和可信人工智能。 去年 12 月,OpenAI 提出的 Deliberative Alignment 引发了广泛关注。 面对用户安全风险,大模型不再止于简单拒绝,而是将规范意识融入思考过程,主动识别边界,清楚哪些可以回应,哪些必须避免。
9/27/2025 8:44:00 PM
机器之心
  • 1