AI在线 AI在线

数学,形式化,模型,语义,CriticLeanBench,错误,Lean,准确率,数据,评估

超越DeepSeek-R1,数学形式化准确率飙升至84% | 字节&南大开源

当人工智能已经能下围棋、写代码,如何让机器理解并证明数学定理,仍是横亘在科研界的重大难题。 字节跳动Seed团队与南京大学联合发布CriticLean框架,一举将数学自然语言到Lean 4代码的形式化准确率从38%提升至84%。 该框架创新性地将评估模型置于核心位置。
7/31/2025 8:21:32 AM
梦晨
  • 1