AI在线 AI在线

AI 驱动的科学系统分析框架:SciSciGPT 打开科学研究的新工作方式

编辑丨%在科学研究过程中,学者经常会面临许多问题:该领域在过去几年内的突破有哪些? 哪些团队领跑? 关键方法的演变脉络如何?
图片

编辑丨%

在科学研究过程中,学者经常会面临许多问题:该领域在过去几年内的突破有哪些?哪些团队领跑?关键方法的演变脉络如何?如果依靠人工搜索和阅读,可能需要不短的时间。如果只是简单地依靠大模型,很有可能得到答非所问的结果。

但现在,有了 SciSciGPT 之后,能得到的不是搜索结果,而是一段结构化、引用完整、具有科学依据的分析。甚至,还能继续追问:哪些团队正在推动相关实验?我该如何设计一个研究验证问题?

这是一个专为「科学研究的科学(science of science)」打造的 AI——它能阅读科学文本,理解科学网络结构,并在证据基础上回答关于科研生态、趋势与结构性问题。

相关的研究内容以「SciSciGPT: advancing human–AI collaboration in the science of science」为题,于 2025 年 12 月 9 日发布在《Nature Computational Science》。

图片

论文链接:https://www.nature.com/articles/s43588-025-00906-6

如何让 AI 「理解科学」

科学进步是提高生活质量、推动全球健康成果和促进增长与繁荣的基础。理解其背后隐藏的机制至关重要,科学学(SciSci)这一领域应运而生以应对这一挑战 ,通过跨学科方法探索科学是如何进行的、如何获得资金以及如何应用的。

而 LLM 智能体,无疑在这个领域有着无限潜力。美国西北大学(Northwestern University)开发的 SciSciGPT 作为 SciSci 的概念验证 AI 协作伙伴,能为公众提供聊天界面(与 ChatGPT 类似),同时提供完全开源的实现,确保透明性,并使其他研究人员能够复制和基于此工作进行扩展。

该框架集成了多个功能:根据用户查询检索相关的 SciSci 出版物,编写代码从复杂数据库中提取数据,使用先进方法进行数据分析,创建结果和见解的可视化,并评估其自身的分析和可视化输出。

图片

图 1:SciSciGPT 系统架构。

SciSciGPT 由五个专业的智能体模块组成:

  • 研究管理器智能体:作为项目领导者和中央协调者,负责组织研究工作流程,将复杂的研究问题分解为任务,并分配给下面列出的四个专业智能体。

  • 文献专家智能体:专注于理解和综合,从科学科学文献中搜索和组织相关信息。

  • 数据库专家代理:处理数据与任务,管理学术数据库中的复杂数据提取、转换和基本统计分析。该代理能够与全面的学术数据存储库进行交互。

  • 分析专家代理:专注于统计分析与建模,实施实证方法和分析技术,并生成可视化结果以支持实证研究。

  • 评估专家代理:评估分析的质量、相关性和严谨性,使系统能够识别潜在改进并迭代调整其方法。

SciSciGPT 使用了一套流水线式的处理架构。它通过信息抽取、引文结构推断、趋势识别、文本生成与引证验证等步骤,将人类研究者的问题转化为可计算的科学分析任务。

每一位专家代理的数据集、文献来源等并非固定,它们相当灵活。该框架可以根据数据源的变化、新方法的涌现或用户需求的变化进行调整或扩展。

案例研究

常春藤盟校之间,经常会有不同学校的天才进行激烈的思维碰撞,在这些合作之间,通常会以什么形式展开?这是研究人员所考虑的第一个问题。

所以,研究者向 SciSciGPT 提出了这么一句需求:「生成 2000 年至 2020 年间常春藤盟校之间合作关系的网络。优化颜色和注释。」

图片

图 2:SciSciGPT 对常春藤联盟大学合作的可视化。

工作流程从 ResearchManager 开始,它识别了请求的关键要求,ResearchManager 代理随后将输入问题分解为高级任务,分配给其他代理。DatabaseSpecialist 以三步流程回应这份任务分配:探索数据库以识别相关架构和表格、使用专业工具标准化大学名称以确保机构识别的一致性、编写 SQL 查询并表达数据。

而对于现有的跨模态复制,SciSciGPT 也有不错的表现。

团队要求 SciSciGPT 想象研究人员正在阅读论文《Large teams develop and small teams disrupt science and technology》,截取了其中一部分交给 SciSciGPT,并给出指示:「解释这个图。使用你的数据库重新进行分析。创建一个类似的可视化。」

图片

图 3:SciSciGPT 对已发表论文中一幅图的复现。

数据库专家从超过 900 万篇论文中提取数据,在评估专家给出 9.5 的高分后,该数据库被移交给分析专家创建双轴可视化。

后续,研究人员可能会考虑这些分析在混入了各种因素后是否仍然成立,或者再复制一份,但这次从头计算影响指标,而不是允许 SciSciGPT 使用 SciSciNet 数据库中预定义的影响指标以简化计算。

此外,SciSciGPT 能回答一类「元科学问题」,即关于科学系统本身的问题。例如科研资金如何影响创新产出、合作模式如何影响论文影响力、跨学科研究的兴起路径等。过去,这些研究需要耗费大量时间建立模型,而现在可以在几分钟内得到结构化分析。

高效研究的智脑

通过自动化技术工作流程,SciSciGPT 将研究任务完成时间从小时缩短至分钟,使研究人员能够专注于工作的创意和解释性方面。这对于早期研究、想法生成与验证中十分有帮助。

SciSciGPT 降低了进入该领域的技术门槛,通过使具备基础领域知识但技术能力有限的人能够更有效地探索数据,从而扩大了该领域的参与度。

人类创造了海量知识,却很难理解这片知识森林的整体面貌。SciSciGPT 的出现,让研究者得以向 AI 询问科学的历史、结构与未来,让科学这门研究未知的事业,能够反过来被系统地理解。

相关资讯

首个全自动AI科学家诞生!西湖大学最新成果:性能超越人类SOTA基线183.7%

DeepScientist团队 投稿. 量子位 | 公众号 QbitAI人类科学家三年的工作量,如今AI两周就能轻松搞定! 最近,来自西湖大学的自然语言处理实验室发布了DeepScientist系统,这也是首个具有完整科研能力,且在无人工干预下,展现出目标导向、持续迭代、渐进式超越人类研究者最先进研究成果的AI科学家系统。
10/8/2025 7:24:27 PM
衡宇

多中心医学图像分析模型,VFMGL框架破解数据孤岛难题,93.4% Dice系数的卓越表现

编辑丨&在众多中下游任务中,收到广泛而多样的数据集训练的基础模型表现出的强大性能,在医疗领域表现却不甚得人心。 受到到数据量、异质性和隐私问题等问题的严重阻碍,基础模型得不到更进一步的发展。 桂林航空航天大学联合江门市中心医院等推出了 Vision Foundation Model General Lightweight(VFMGL)框架,以促进各种医疗任务的专家临床模型的去中心化构建。
3/5/2025 5:48:00 PM
ScienceAI

11天实现18种广谱抗菌素设计,体外验证成功率94.4%,浙大侯廷军等用LLM方法从头设计AMP

编辑 | 萝卜皮大型语言模型 (LLM) 在化学和生物医学研究中取得了显著进展,可作为各种任务的多功能基础模型。 浙江大学侯廷军、谢昌谕以及南方医科大学姜志辉等课题组组成的联合团队提出了 AMP-Designer,这是一种基于 LLM 的方法,用于快速设计具有所需特性的抗菌肽 (AMP)。 在 11 天内,AMP-Designer 实现了 18 种具有广谱抗革兰氏阴性细菌活性的 AMP 的从头设计。
3/7/2025 1:11:00 PM
ScienceAI