近日,百度智能云研发的FM Agent登顶OpenAI机器学习工程权威基准MLE-Bench,拿下SOTA成绩,超越微软R&D Agent和OpenAI展示的AIDE系统。
据了解,MLE-Bench由OpenAI主导,是目前评估AI Agent“实战”能力的核心榜单。该基准含金量极高,其测试集包含了75个真实的Kaggle竞赛项目——这些项目均为往年全球顶尖数据科学家团队参与解决的真实工程难题,测试AI在模型训练、数据准备、实验运行等机器学习工程中的能力。
公开信息显示,百度FM Agent在“中等”和“高难度”任务上的表现显著领先,显示出强大的攻坚能力。同时,该Agent框架具备自主优化能力,通过构建具备自驱演化的智能系统,系统性分析问题、并自主优化解决方案。
近期百度在AI领域动作频频,最新开源的文心4.5衍生模型PaddleOCR-VL模型以0.9B参数量,在全球权威榜单OmniDocBench v1.0+v1.5双榜夺得综合性能第一、四项子任务全线SOTA成绩。另据市场消息,百度年度最重要的科技大会“百度世界2025”已定档11月13日。