AI在线 AI在线

AMD与约翰霍普金斯大学联手:AI实验室copilot自动化科研,成本节约84%!

编辑 | 2049科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。 近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理和代码生成方面取得了显著进展,这为自动化科学研究提供了新的可能性。 然而,现有的自动化研究工具通常只能处理单个环节,如文献综述或实验设计,无法实现全流程的自动化。

图片

编辑 | 2049

科学研究,尤其是机器学习领域的研究,往往需要大量的时间和资源投入,从最初的构思到最终的结果产出,每一步都充满了挑战。

近年来,大型语言模型(Large Language Models,LLMs)在自然语言处理和代码生成方面取得了显著进展,这为自动化科学研究提供了新的可能性。然而,现有的自动化研究工具通常只能处理单个环节,如文献综述或实验设计,无法实现全流程的自动化。

针对这一问题,来自 AMD 和约翰霍普金斯大学的研究团队提出了一种名为 Agent Laboratory 的创新框架。该框架利用 LLM 作为研究助手,能够从文献综述到实验设计和报告撰写全流程自动化,显著加速科学研究过程。

该框架不仅支持全自动模式,还创新性地提供了 co-pilot 协作模式,允许研究人员在关键节点提供反馈和指导,实现人机协同研究。

该研究以「Agent Laboratory: Using LLM Agents as Research Assistants」为题,于 2025 年 1 月 8 日发布在 arXiv 预印本平台。

图片

研究背景

现代 AI 研究正面临着效率与创新的双重挑战。研究人员往往需要在有限的时间和资源约束下,权衡和筛选最具潜力的研究方向。

现有的自动化研究工具存在明显局限:ResearchAgent 虽然能够生成研究想法和实验设计,但缺乏实际执行能力;The AI Scientist 虽然可以生成和执行代码,但其生成的研究论文质量有待提高。更重要的是,这些系统都采用完全自动化的方式,无法有效整合人类研究者的专业判断和创造性思维。

技术创新

Agent Laboratory 创新地提出了一个三阶段的研究辅助框架。首先是文献综述阶段,系统会根据研究者提供的主题自动检索和分析相关文献。其次是实验阶段,包括实验规划、数据准备和运行实验三个环节。最后是报告撰写阶段,系统能够基于实验结果生成规范的研究论文。

系统的核心是一个多智能体协作框架,包括多个专业化的语言模型代理:PhD 代理负责文献综述和研究规划,Postdoc 代理负责实验设计和结果解释,ML 工程师代理专注于代码实现,Professor 代理则负责论文评审和质量控制。

图片

图示:Agent Laboratory 整体框架。(来源:论文)

系统的另一个核心创新是 mle-solver 模块,它通过五个关键组件实现代码的自动生成和优化:

  • Command Execution:通过 REPLACE 和 EDIT 操作生成和修改代码
  • Code Execution:执行代码并验证其正确性
  • Program Scoring:使用 LLM reward model 评估代码质量
  • Self Reflection:基于执行结果进行自我改进
  • Performance Stabilization:通过多样性采样确保代码质量稳定

在论文生成方面,系统采用了创新的 paper-solver 模块,集成了自动化审稿功能。该功能在 500 篇 ICLR 2022 论文的评估中,达到了与人类审稿人相当的准确率(65% 对比 66%),在 F1 分数上甚至超过了人类表现(0.57 对比 0.49)。

图片

图示:Agent Laboratory 工作流程。(来源:论文)

实验验证

研究团队通过多维度实验评估了 Agent Laboratory 的性能。在模型对比中,o1-preview 在有用性方面表现最佳,评分达到 4.4/5;在报告质量方面得分为 3.4/5,与 o1-mini(3.2/5)相近;o1-mini 在实验质量方面领先,得分为 3.2/5;而 gpt-4o 虽然在各项指标上表现较弱,但其运行成本显著降低,每篇论文仅需 2.33 美元,比现有自动化研究方法节省 84%。

特别值得注意的是,研究发现人类评估和自动化评估存在显著差异。自动评估给出的平均分数为 6.1/10,而人类评估仅为 3.8/10,这一发现强调了在评估系统性能时需要更多地依靠人类专家判断。在 MLE-Bench 部分挑战任务中,系统展现了优异的实践能力,获得了 4 枚奖牌(2 金 1 银 1 铜)。

图片

图示:实验结果。(来源:论文)

结语

Agent Laboratory 的创新意义在于重新定义了 AI 辅助研究的范式。通过灵活的自动化程度和人机协作模式,系统既能提供高效的研究支持,又能保持人类研究者的创造性主导地位。

虽然当前系统在自动评估准确性和论文质量方面仍有改进空间,但其显著的成本优势和实用性已经证明了其在加速科学研究方面的潜力。随着系统的进一步完善,它有望成为推动科学发现加速的重要工具。

论文链接:https://arxiv.org/abs/2501.04227

相关资讯

Nature子刊新登,如何检测小分子机器学习中的覆盖率偏差

编辑丨&小分子机器学习旨在从分子结构中预测化学或生物特性,其应用包括毒性预测、配体结合和药代动力学等。 最近的一个趋势是开发避免显式领域知识的端到端模型。 这些模型假设训练和评估数据中没有覆盖率偏差,这意味着数据代表了真实分布。
2/12/2025 5:40:00 PM
ScienceAI

哈佛、英特尔等60+顶尖机构联手打造:NeuroBench定义神经形态计算评测新范式

编辑 | 2049在人工智能快速发展的今天,计算效率成为制约其进一步发展的关键瓶颈。 神经形态计算凭借其借鉴生物大脑的创新架构,在能效比和实时处理等方面展现出巨大潜力。 然而,该领域长期缺乏统一的评测基准,使得技术创新难以得到客观衡量和有效比较。
2/17/2025 3:01:00 PM
ScienceAI

速度提高40w倍,牛津新的ML策略计算蛋白的自由能扰动,助力药物发现

编辑 | 白菜叶机器学习为快速准确地预测结合亲和力提供了巨大的希望。 然而,目前的模型缺乏稳健的评估,无法完成(命中到)先导化合物优化中遇到的任务,例如对一系列同类配体的结合亲和力进行排序,从而限制了它们在药物发现中的应用。 牛津大学的研究团队首先提出了一种新的基于注意力的图神经网络模型 AEV-PLIG(原子环境向量-蛋白质配体相互作用图),以解决这些问题。
2/24/2025 3:26:00 PM
ScienceAI
  • 1