AI在线 AI在线

FM Agent登顶OpenAI MLE-Bench,由百度智能云研发

近日,百度智能云研发的FM Agent登顶OpenAI机器学习工程权威基准MLE-Bench,拿下SOTA成绩,超越微软R&D Agent和OpenAI展示的AIDE系统。 据了解,MLE-Bench由OpenAI主导,是目前评估AI Agent“实战”能力的核心榜单。 该基准含金量极高,其测试集包含了75个真实的Kaggle竞赛项目——这些项目均为往年全球顶尖数据科学家团队参与解决的真实工程难题,测试AI在模型训练、数据准备、实验运行等机器学习工程中的能力。

近日,百度智能云研发的FM Agent登顶OpenAI机器学习工程权威基准MLE-Bench,拿下SOTA成绩,超越微软R&D Agent和OpenAI展示的AIDE系统。

FM Agent登顶OpenAI MLE-Bench,由百度智能云研发

据了解,MLE-Bench由OpenAI主导,是目前评估AI Agent“实战”能力的核心榜单。该基准含金量极高,其测试集包含了75个真实的Kaggle竞赛项目——这些项目均为往年全球顶尖数据科学家团队参与解决的真实工程难题,测试AI在模型训练、数据准备、实验运行等机器学习工程中的能力。

公开信息显示,百度FM Agent在“中等”和“高难度”任务上的表现显著领先,显示出强大的攻坚能力。同时,该Agent框架具备自主优化能力,通过构建具备自驱演化的智能系统,系统性分析问题、并自主优化解决方案。

近期百度在AI领域动作频频,最新开源的文心4.5衍生模型PaddleOCR-VL模型以0.9B参数量,在全球权威榜单OmniDocBench v1.0+v1.5双榜夺得综合性能第一、四项子任务全线SOTA成绩。另据市场消息,百度年度最重要的科技大会“百度世界2025”已定档11月13日。

相关资讯

百度智能云:客悦、曦灵、一见、甄知四款大模型应用已接入 DeepSeek

百度智能云正加速推进金融、交通、政务、汽车、医疗、工业等行业应用产品与DeepSeek模型的适配验证工作,积极探索大模型在智能问数、公文写作、理财助手、合规管理、医疗辅诊等行业垂直业务场景中的能力拓展与应用进化。
2/8/2025 5:20:00 PM
清源

百度智能云推出四款新应用接入 DeepSeek,助力各行业智能化升级

近日,百度智能云正式推出了四款全新应用 —— 客悦、曦灵、一见和甄知,这些应用已成功接入最新版本的 DeepSeek 模型。 这一举措不仅为企业提供了更为丰富的人工智能解决方案,还旨在满足在智能外呼、数字人视频脚本生成、视觉智能分析及知识管理等高价值业务场景中的多样化需求。 随着数字化转型的加速,百度智能云也在积极推进各行业的应用落地,包括金融、交通、政务、汽车、医疗及工业等领域。
2/8/2025 5:22:00 PM
AI在线

一张照片生成拜年视频!百度推出“飞帖贺新春”微信小程序功能

近日,百度智能云曦灵数字人推出了一项创新功能——“飞帖贺新春”微信小程序,为传统拜年习俗注入了新的科技活力。 这一功能在春节期间免费向公众开放,用户只需上传一张照片,即可快速生成个性化的数字人拜年视频。 “飞帖拜年”源自唐宋年间文人雅士之间的一种拜年习俗,他们将祝福语刻在竹木上互相投递。
1/25/2025 8:53:00 AM
AI在线
  • 1