科研智能体「漫游指南」—助你构建领域专属科研智能体

欢迎关注中国科学院自动化研究所 & 北京中关村学院 & 芝加哥大学 & 西湖大学 & 腾讯带来的科研智能体方面的最新综述调研。当前基于大语言模型（LLM）的智能体构建通过推动自主科学研究推动 AI4S 迅猛发展，催生一系列科研智能体的构建与应用。然而人工智能与自然科学研究之间认知论与方法论的偏差，对科研智能体系统的设计、训练以及验证产生着较大阻碍。

欢迎关注中国科学院自动化研究所 & 北京中关村学院 & 芝加哥大学 & 西湖大学 & 腾讯带来的科研智能体方面的最新综述调研。

当前基于大语言模型（LLM）的智能体构建通过推动自主科学研究推动 AI4S 迅猛发展，催生一系列科研智能体的构建与应用。然而人工智能与自然科学研究之间认知论与方法论的偏差，对科研智能体系统的设计、训练以及验证产生着较大阻碍。

与传统综述不同，本篇综述为大家呈现了科研智能体的「漫游指南」，旨在提供构建科研智能体的「说明指南」：从科学研究的全周期出发，概述了科研智能体的分级策略，并详细阐述了对应等级的构建策略与能力边界；同时该「漫游指南」详细阐明了如何从头构建科研智能体，以及如何对科研智能体的定向能力进行增强。同时「指南」中详细涵盖了科研智能体的概念阐述、构建方案、基线评估以及未来方向。

希望本「漫游指南」能启发 AI 研究者与具体自然科学研究者，促进 AI 与自然科学之间的深度融合。

论文地址：https://doi.org/10.36227/techrxiv.175459840.02185500/v1
仓库地址：https://github.com/gudehhh666/Awesome_Scientific_Agent.git

综述的核心贡献如下：

在系统性探索科研智能体领域的过程中，本综述尤其注重对自然科学领域的科研智能体的深入而严谨的解构分析，尤其就其构建策略与能力范围而提出了针对科研智能体的三级分级系统。
该综述提供了一套全面而细致的实践指南，涵盖从零构建科研智能体的基础流程，到针对特定能力对现有智能体进行定向能力增强，进一步提升现有科研智能体系统的能力与性能。
通过结合科学研究全生命周期与科研智能体构建策略，本综述深入剖析了构建策略与科研流程之间相互促进与协同的过程，揭示了科研智能体设计与应用之间的独特联系。

图 1｜科研智能体对于科研过程全生命周期的介入

科研智能体分级策略

图 2｜科研智能体分级示意

根据构建策略与其能力边界的等级划分，科研智能体被我们分为三个等级：

Agent as Assistant：该等级的智能体通常局限于特定领域的较单一任务，而无法进行跨多个科研流程的综合性操作。其构建策略往往使用小模型经过后训练（Post-training）或微调（Fine-tuning）而完成。其能力往往局限于被专门训练过的领域任务。其能够在一个专门任务上达到很高的水准，但是无法承担起全面统筹各个科研过程的能力。
Agent as Partner：该等级的智能体较 Assistant 最大的飞跃便是充分集成各类工具以实现自身能力的跃迁。其构建策略上逐步转向更加系统化的架构设计，采用闭源大型模型，并结合丰富的上下文信息进行优化。它们的设计不仅仅是优化单个任务的性能，而是将多个任务拆解并进行模块化设计。其能力范围主要在于在特定领域内独立完成文献咨询、假设生成和实验设计等任务，然而，许多这类智能体仍然局限于知识获取工具的集成，在复杂任务的自我验证和可靠性方面存在局限。
Agent as Avatar：该等级智能体侧重于多个维度的能力增强，其具备了强大的推理能力、深度记忆和强协作能力，能够在科学研究的各个阶段提供全面支持。其构建策略转向对原有智能体能力的定向增强：通过深度协作和增强的记忆能力进行设计，能够处理复杂的科学问题，并协调不同工具进行任务执行。其能力也不简单倾向于单一领域，它们能够跨学科地应用并协作解决科研难题。

图 3｜不同等级科研智能体汇总

从头构建科研智能体

本综述凝练了科研智能体的构建过程，从头构建科研智能体的工作流主要为知识组织、知识注入以及工具集成三个部分构成。

知识组织：知识组织定义了科学信息如何被结构化，以便使智能体能够有效地理解和推理。它涵盖非结构化序列（例如研究论文和书籍）、结构化数据（例如基因表达数据集）、指令（例如问答对）以及知识图谱，每种方式都提供了独特的方式来表示和检索领域知识。这些组织策略作为智能体推理、归纳和决策的基础，对于科学发现至关重要。

知识注入：知识注入涉及将特定领域的专业知识嵌入科学智能体中，这可以通过显式或隐式方法实现。显式注入直接将知识整合到提示中或针对特定任务优化提示，而隐式注入通常涉及微调模型或使用强化学习来使智能体的响应适应特定领域。这两种方法都旨在通过注入相关专业知识来增强智能体解决特定领域科学挑战的能力。

工具集成：工具集成通过将外部工具用于专业任务（如专业知识获取、执行和模拟、分析以及可视化）来扩展智能体的功能。通过选择和集成特定领域的工具，科研智能体可以更高效地执行复杂任务。这些工具的有效集成使科研智能体能够自主运行，协调各种资源以协助科学研究与发现。

科研智能体能力增强

记忆增强：记忆增强对于科学智能体实现类人智能和长期高效运作至关重要。它使智能体能够保持上下文、执行多步推理并积累经验知识。记忆结构，如块、知识三元组、原子事实、摘要和例程，服务于不同的记忆功能，从存储上下文信息到细粒度的事实知识。记忆系统分为以上下文为中心和以行动为中心两种方法，前者侧重于在长时间内保持可靠的上下文，后者则增强动态任务适应和技能泛化能力。这些记忆改进使智能体能够执行更复杂的任务，并保留相关知识以供未来使用。
推理增强：推理增强旨在解决 LLMs 的局限性，例如幻觉和不一致性，特别是在科学任务中。通过结构化推理链（例如 CoT 和多轮推理）以及自洽性验证等机制，科学场景中的通用推理能力得到提升，从而提高智能体输出的可靠性和透明度。领域特定推理优化通过引入领域偏好指导（确保在特定领域内进行逻辑推理）和符号演绎（将符号推理与概率模型相结合），进一步提升了智能体的推理能力，使其在复杂的科学探究中能够做出更精确和一致的推论。
协作增强：协作增强着重于改善多智能体系统之间以及智能体与人类在科学研究中的交互。在多智能体协作中，智能体专注于特定角色，参与结构化对话和辩论，并高效共享知识。角色专业化和结构化协议等方法有助于解决角色重叠和信息流等挑战。人机协作得益于明确的目标设定和反馈机制，使人类研究人员能够提供战略指导并监督智能体任务。自然语言界面促进无缝沟通，减少人类与 AI 之间的技术障碍。这些增强确保智能体和人类能够有效协作，优化研究成果，并促进更具活力的科学发现过程。

基准与评估

根据现有基准的侧重不同，基准主要分为知识密集型任务以及实验驱动型任务，两者对于整体科学研究过程中各有侧重。

知识密集型：科研智能体主要设计用于处理需要深厚专业知识的复杂、特定领域的任务。这些任务通常围绕知识传播展开，包括文献挖掘、研究假设生成、实验设计、结果分析和评估。这类任务要求智能体在专业领域具备认知能力，而非简单的一般知识。

实验驱动型：面向科研智能体的实验驱动任务评估代理在科学探究中使用工具的能力，强调自主实验设计、验证以及在科学环境中的多过程探索。