编辑 | 紫罗前不久，微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划，旨在通过 AI 系统优化技术实现迷信发觉。11 月 13 日，微软团队在 arXiv 预印平台发表题为《大型语言模型对迷信发觉的影响：使用 GPT-4 的初步钻研》（「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」）的文章。文章篇幅长达 230 页。论文链接：，自然

230页长文，涵盖5大迷信规模，微软团队使用GPT-4摸索LLM对迷信发觉的影响

编辑 | 紫罗

前不久，微软 DeepSpeed 团队启动了一个名为 DeepSpeed4Science 的新计划，旨在通过 AI 系统优化技术实现迷信发觉。

11 月 13 日，微软团队在 arXiv 预印平台发表题为《大型语言模型对迷信发觉的影响：使用 GPT-4 的初步钻研》（「The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4」）的文章。

文章篇幅长达 230 页。

230页长文，涵盖5大迷信规模，微软团队使用GPT-4摸索LLM对迷信发觉的影响

论文链接：https://arxiv.org/abs/2311.07361

近年来，自然语言处理规模的突破性进展在强大的大型语言模型（LLM）的出现中达到了顶峰，这些模型在众多规模展示了非凡的才能，包括自然语言的懂得、生成和翻译，甚至扩展到语言处理之外的使命。

在本报告中，微软钻研职员深入钻研了 LLM 在迷信发觉/钻研背景下的表现，重点关注最先进的语言模型 GPT-4。钻研涵盖多个迷信规模，包括药物发觉、生物学、较量争论化学（DFT 和 MD）、资料设想和偏微分方程 (PDE)。

评价 GPT-4 的迷信使命对于发掘其在各个钻研规模的后劲、验证其特定规模的专业知识、加速迷信进步、优化资源配置、指导未来模型开发和促进跨学科钻研至关重要。摸索方法主要包括专家驱动的案例评价，它为模型对复杂迷信概念和关系的懂得提供定性见解，并且偶尔从事基准测试，它定量评价模型解决明确定义的特定规模问题的才能。

初步摸索表明，GPT-4 在各种迷信应用中展现出广阔的后劲，展示了其处理复杂问题解决和知识整合使命的才能。钻研职员对 GPT-4 在上述规模（例如药物发觉、生物学、较量争论化学、资料设想等）的性能从事了分析，强调了其优点和局限性。从广义上评价 GPT-4 的知识基础、迷信懂得才能、迷信数值较量争论才能和各种迷信预计才能。

在生物学和资料设想方面，GPT-4 拥有广泛的规模知识，可以帮助满足特定要求。在药物发觉等其他规模，GPT-4 显示出强大的特性预计才能。然而，在较量争论化学和偏微分方程等钻研规模，虽然 GPT-4 有望帮助钻研职员从事预计和较量争论，但仍需要进一步努力来提高其准确性。尽管其功能令人印象深刻，但 GPT-4 还可以针对定量较量争论使命从事改进，例如需要从事微调以实现更好的准确性。

钻研职员希望这份报告能够为那些寻求利用 LLM 的力量从事迷信钻研和应用的钻研职员和从业者，以及那些对推进特定规模迷信使命的自然语言处理感兴趣的人提供宝贵的资源。需要强调的是，LLM 和大规模机器学习规模正在迅速发展，该技术的未来几代可能拥有本报告中强调的功能之外的其他功能。值得注意的是，LLM 与专业迷信工具和模型的整合，以及基础迷信模型的开发，代表了两条有希望的摸索途径。

药物发觉

药物发觉是制药行业的重要组成部分，在推进医学迷信方面发挥着至关重要的作用。药物发觉涉及复杂的多学科过程，包括靶点识别、先导化合物优化和临床前测试，最终导致安全有效药物的开发。

评价 GPT-4 在药物发觉方面的才能具有巨大的后劲，例如加速发觉过程、降低搜索和设想成本、增强创造力等。在本章中，钻研职员首先通过定性测试钻研 GPT-4 关于药物发觉的知识，然后通过对多个关键使命的定量测试来钻研其预计才能，包括药物-靶标相互作用/结合亲和力预计、分子性质预计和逆合成预计。

第一个示例是生成给定药物称号的化学式、IUPAC 称号和 SMILES，这是称号和药物其他表示形式之间的翻译。以 Afatinib 作为输入药物。GPT-4 精确输出化学式为 C24H25ClFN5O3，IUPAC 称号也精确，这意味着 GPT-4 知道药物 Afatinib。然而，SMILES 并不精确。因此，钻研职员给予指导，让 GPT-4 再次生成 SMILES。不幸的是，虽然明确要求 GPT-4 「注意每种原子类型的原子数量」并基于精确的 IUPAC 和化学式生成，但在几次试验中生成的 SMILES 序列仍然不精确。

230页长文，涵盖5大迷信规模，微软团队使用GPT-4摸索LLM对迷信发觉的影响

图 1：药物称号和药物其他表示形式之间的翻译。（来源：论文）

生物

在本章中，钻研职员深入探讨了 GPT-4 在生物学钻研规模的才能，主要关注其懂得生物语言、利用内置生物知识从事推理的熟练程度，以及设想生物分子和生物实验。观察表明，GPT-4 通过展示其处理复杂生物语言、执行生物信息使命、甚至作为生物设想的迷信助手的才能，展现出为生物学规模做出贡献的巨大后劲。GPT-4 对生物学概念的广泛掌握及其作为设想使命中的迷信助手的巨大后劲凸显了其在推进生物学规模的重要作用。

首先评价了 GPT-4 处理生物序列序列标记和文本标记的才能。

钻研职员要求 GPT-4 在生物序列及其文本标记之间从事转换：1）输出给定蛋白质序列的蛋白质称号。2) 输出给定称号的蛋白质序列。在执行每个使命之前，都会重新启动会话以防止信息泄露。结果表明，GPT-4 知道序列到文本标记转换的过程，但它不能自己直接查找（也称为 BLAST 序列）。同时，GPT-4 更喜欢生物序列的文本标记（包括蛋白质和 DNA，后者未显示）。当给出文本标记时，它提供了更丰富的信息，这可能是由于其设想理念。需要指出的是，还注意到，生成序列可能会导致 GPT-4 的灾难性行为。如下图所示，虽然 GPT-4 返回了精确的 UniProt ID，但在生成序列时遇到了困难。序列生成因尝试的几种不同提示而崩溃。

230页长文，涵盖5大迷信规模，微软团队使用GPT-4摸索LLM对迷信发觉的影响

图 2：序列标记和文本标记之间的转换。（来源：论文）

较量争论化学

较量争论化学是一个跨学科规模，利用较量争论方法和技术来解决化学中的复杂问题。长期以来，它一直是分子系统钻研中不可或缺的工具，提供了对原子级相互作用的见解并指导实验工作。较量争论化学在微观和宏观层面上懂得分子结构、化学反应和物理现象方面发挥着至关重要的作用。

在本章中，钻研了 GPT-4 在较量争论化学各个规模的功能，包括电子结构方法和分子动力学模拟，并展示了 GPT-4 从不同角度服务的两个实际示例。总之，GPT-4 能够以多种方式帮助较量争论化学钻研职员。

钻研从评价 GPT-4 解释量子化学和物理概念的才能开始。评价涵盖了该规模常用的方法，如密度泛函理论（DFT）和波函数理论（WFT）。

230页长文，涵盖5大迷信规模，微软团队使用GPT-4摸索LLM对迷信发觉的影响

图 3：密度泛函理论的概念检验。（来源：论文）

在以上例子中，GPT-4 很好地懂得了密度泛函理论、KohnSham 密度泛函理论和无轨道密度泛函理论的概念。

资料设想

在本章中，钻研了 GPT-4 在资料设想规模的功能。钻研职员设想了一套全面的使命，涵盖资料设想过程中的各个方面，从最初的概念化到随后的验证和合成。目标是评价 GPT-4 的专业知识及其在实际应用中生成有意义的见解和解决方案的才能。设想的使命涵盖各个方面，包括背景知识、设想原则、候选识别、候选结构生成、属性预计和合成条件预计。通过解决整个设想过程，目标是对 GPT-4 在资料设想方面的熟练程度从事整体评价，特别是对于结晶无机资料、有机聚合物以及金属有机框架 (MOF) 等更复杂的资料。

值得注意的是，评价主要侧重于对 GPT-4 在这一专业规模的才能从事定性评价，而只有在可行的情况下才能获得统计分数。

钻研职员首先询问目前固体电解质的分类，其分类标准有不同的要求，例如一般化学和阴离子类型。还要求提供基于分类标准的示例。如图 4 所示，这里的所有答案都是事实，而且大部分都是精确的。由于这些分类标准在文献中没有得到很好的体现，GPT-4 应该对化学的含义有一个相对清晰的懂得。

230页长文，涵盖5大迷信规模，微软团队使用GPT-4摸索LLM对迷信发觉的影响

图 4：无机固体电解质的分类。（来源：论文）

偏微分方程

偏微分方程 (PDE) 是数学规模中一个重要且高度活跃的钻研规模，在物理、工程、生物学和金融等各个学科中具有深远的应用。偏微分方程在建模和懂得各种现象（从流体动力学和传热到电磁场和群体动力学）方面发挥着至关重要的作用。

在本章中，钻研了 GPT-4 在偏微分方程的几个方面的技能：懂得偏微分方程的基础知识、求解偏微分方程以及协助 AI 从事偏微分方程钻研。钻研职员在不同形式的 PDE 上评价模型，例如线性方程、非线性方程和随机 PDE。钻研表明 GPT-4 能够以多种方式帮助钻研职员。

第一个问题是关于偏微分方程的定义和形式，GPT-4 对偏微分方程提供了很好的解释，如图 5 所示。在用户的提示下，GPT-4 给出了偏微分方程的清晰概念以及线性或非线性、椭圆形、抛物线形或双曲形的类别。该规模的新手将从这些概念和分类中受益。

230页长文，涵盖5大迷信规模，微软团队使用GPT-4摸索LLM对迷信发觉的影响

图 5：PDE 的基本概念介绍。（来源：论文）

未来展望

在该钻研中，钻研职员摸索了 LLM 在各个自然迷信规模的才能和局限性，涵盖了各种使命。钻研的主要目标是对最先进的 LLM GPT-4 及其对迷信发觉做出贡献的后劲提供初步评价，为多个规模的钻研职员提供宝贵的资源和工具。

通过广泛的分析，钻研强调了 GPT-4 在众多迷信使命中的熟练程度，从文献综合到属性预计和代码生成。尽管其功能令人印象深刻，但必须认识到 GPT-4（以及类似的 LLM）的局限性，例如处理特定数据格式的挑战、响应的不一致以及偶尔的幻觉。

钻研职员相信，该摸索是懂得和认识 GPT-4 在自然迷信规模后劲的关键第一步。通过详细概述其优点和缺点，旨在帮助钻研职员在将 GPT-4（或其他 LLM）纳入日常工作时做出明智的决定，确保最佳应用，同时注意其局限性。

此外，鼓励 GPT-4 和其他 LLM 的进一步摸索和发展，旨在提高其迷信发觉才能。这可能涉及完善培训过程、合并特定规模的数据和架构，以及集成针对不同迷信学科量身定制的专业技术。

随着人工智能规模的不断发展，像 GPT-4 这样的复杂模型的集成将在加速迷信钻研和创新方面发挥越来越重要的作用。

最后，钻研总结了 LLM 在迷信钻研方面需要改进的方面，并讨论加强 LLM 或在此基础上推动迷信突破的潜在方向。

{{userData.name}}已认证

230页长文，涵盖5大迷信规模，微软团队使用GPT-4摸索LLM对迷信发觉的影响

药物发觉

生物

较量争论化学

资料设想

偏微分方程

未来展望

WPS AI开启公测，将面向全体用户持续绽放感受

让天下没有难做的开发和运维，DevOps终于有了专属大模型，蚂蚁和北大联合发布

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

研究：AI 医疗建议存巨大安全隐患，22% 的回答可能致死