AI在线 AI在线

AlphaFold3重磅开源,诺奖级AI颠覆世界!GitHub斩获1.8k星,本地即可部署

AlphaFold3源码终于开放了! 六个月前,AlphaFold3横空出世震撼了整个学术界。 AlphaFold的开发人也凭借它在上个月赢得了诺贝尔化学奖。

AlphaFold3源码终于开放了!

六个月前,AlphaFold3横空出世震撼了整个学术界。AlphaFold的开发人也凭借它在上个月赢得了诺贝尔化学奖。

图片

然而,这个诺奖级AI的「不开源」一直引起学界的不满。谷歌DeepMind只推出了一个免费研究平台「AlphaFold Server」,而且该服务有每日的次数限制。相比于开源的AlphaFold2来说,这种使用方式缺失了很多自由度。

好在它现在终于开源了!开源后,生化医药的科学家们可以在本地部署AlphaFold3,极大地缩短了新药、疫苗等研发进程。

现在,任何人都可以下载AlphaFold3软件代码并进行非商业使用,但目前只有学术背景的科学家可申请访问训练权重。

GitHub上的AlphaFold3开源项目代码目前已斩获1.8k星。

图片

开源项目:https://github.com/google-deepmind/alphafold3

AlphaFold3的「效仿者」们

在过去的几个月中,不少公司都依靠AlphaFold3论文中的伪代码,争相发布了各自受到AlphaFold3启发的类似模型。

比如,获得OpenAI投资的AI生物初创Chai Discovery,就在9月发布了用于分子结构预测的新型多模态基础模型Chai-1,并附带了一份技术报告,比较了Chai-1与AlphaFold等模型的性能。

图片

官网地址:https://www.chaidiscovery.com/

另一家位于美国旧金山的公司Ligo Biosciences则发布了一个无使用限制的AlphaFold3版本。但它尚未具备完整的功能,比如模拟药物和蛋白质以外分子的能力。

图片

项目地址:https://github.com/Ligo-Biosciences/AlphaFold3

其他团队也正在开发没有使用限制的AlphaFold3版本:AlQuraishi希望在年底前推出一个名为OpenFold3的完全开源模型。这将使制药公司能够使用专有数据(例如结合不同药物的蛋白质结构)重新训练模型,从而有可能提高性能。

开源的重要性

过去一年里,许多公司发布了新的生物AI模型,这些公司对开放性采取了不同的态度。

威斯康星大学麦迪逊分校的计算生物学家Anthony Gitter对盈利性公司加入他的领域没有异议——只要他们在期刊和预印本服务器上分享工作时遵循科学界的标准。

「我和其他人希望盈利性公司们也分享关于如何进行预测的信息,并以我们可以审查的方式发布AI模型和代码,」Gitter补充道,「我的团队不会基于无法审查的工具进行构建和使用。」

DeepMind科学AI负责人Pushmeet Kohli表示,几种AlphaFold3复制品的出现表明,即使没有开源代码,该模型也是可复现的。

他补充说,未来他希望看到更多关于出版规范的讨论,因为这一领域越来越多地由学术界和企业研究人员共同参与。

此前,AlphaFold2的开源推动了其他科学家的大量创新。

例如,最近一次蛋白质设计竞赛的获胜者使用该AI工具设计出能够结合癌症靶标的新蛋白质。

AlphaFold项目的负责人Jumper最喜欢的一个AlphaFold2创新,是一个团队使用该工具识别出一种帮助精子附着在卵细胞上的关键蛋白。

Jumper迫不及待地想看到在分享AlphaFold3后出现这样的惊喜。

安装和运行

安装AlphaFold3需要一台运行Linux的机器;AlphaFold3不支持其他操作系统。

完整安装需要多达1TB的磁盘空间来存储基因数据库(建议使用SSD存储)以及一块具有计算能力8.0或更高的 NVIDIA GPU(具有更多内存的GPU可以预测更大的蛋白质结构)。

经过验证,单个NVIDIA A100 80 GB或NVIDIA H100 80 GB可以适配最多5120个token的输入。在NVIDIA A100和H100 GPU上的数值准确性也已被验证。

尤其是对于较长的目标,基因搜索阶段可能会消耗大量RAM——建议至少使用64GB的RAM运行。

配置步骤:

1. 在GCP上配置机器

2. 安装Docker

3. 为A100安装NVIDIA驱动程序

4. 获取基因数据库

5. 获取模型参数

6. 构建AlphaFold3 Docker容器或Singularity镜像

获取AlphaFold3源代码

通过git下载AlphaFold3的代码库:

复制
git clone https://github.com/google-deepmind/alphafold3.git

获取基因数据库

此步骤需要「curl」和「zstd」。

AlphaFold3需要多个基因(序列)蛋白质和RNA数据库来运行:

- BFD small

- MGnify

- PDB(mmCIF格式的结构)

- PDB seqres

- UniProt

- UniRef90

- NT

- RFam

- RNACentral

Python程序「fetch_databases.py」可以用来下载和设置所有这些数据库。

建议在「screen」或「tmux」会话中运行以下命令,因为下载和解压数据库需要一些时间。完整数据库的总下载大小约为252GB,解压后的总大小为630GB。

复制
cd alphafold3  # Navigate to the directory with cloned AlphaFold3 repository.
python3 fetch_databases.py --download_destinatinotallow=<DATABASES_DIR>

该脚本从托管在GCS上的镜像下载数据库,所有版本与AlphaFold3论文中使用的相同。

脚本完成后,应该有以下目录结构:

复制
pdb_2022_09_28_mmcif_files.tar  # ~200k PDB mmCIF files in this tar.
bfd-first_non_consensus_sequences.fasta
mgy_clusters_2022_05.fa
nt_rna_2023_02_23_clust_seq_id_90_cov_80_rep_seq.fasta
pdb_seqres_2022_09_28.fasta
rfam_14_9_clust_seq_id_90_cov_80_rep_seq.fasta
rnacentral_active_seq_id_90_cov_80_linclust.fasta
uniprot_all_2021_04.fa
uniref90_2022_05.fa

获取模型参数

访问AlphaFold3模型参数需要向Google DeepMind申请并获得授权。

数据管线

数据管线的运行时间(即基因序列搜索和模板搜索)可能会因输入的大小、找到的同源序列数量以及可用的硬件(磁盘速度尤其会影响基因搜索的速度)而显著变化。

如果想提高性能,建议提高磁盘速度(例如通过利用基于RAM的文件系统),或增加可用的CPU核心并增加并行处理。

此外,请注意,对于具有深度MSA的序列,Jackhmmer或Nhmmer可能需要超出推荐的64 GB RAM的大量内存。

模型推理

AlphaFold3论文的补充信息中的表8提供了在配置为运行在16个NVIDIA A100上时的AlphaFold3的无需编译的推理时间,每个设备具有40GB的内存。

图片

相比之下,该存储库支持在单个NVIDIA A100上运行AlphaFold3,具有80GB内存,并在配置上进行了优化以最大化吞吐量。

下表中使用GPU秒(即使用16个A100时乘以16)比较了这两种设置的无需编译的推理时间。该存储库中的设置在所有token大小上效率更高(提高至少2倍),表明其适合高吞吐量应用。

图片

硬件要求

AlphaFold3正式支持以下配置,并已对其进行了广泛的数值准确性和吞吐量效率测试:

- 1 NVIDIA A100(80GB)

- 1 NVIDIA H100(80GB)

通过以下配置更改,AlphaFold3可以在单个NVIDIA A100 (40GB) 上运行:

1. 启用统一内存。

2. 调整model_config.py中的pair_transition_shard_spec:

复制
pair_transition_shard_spec: Sequence[_Shape2DType] = (
      (2048, None),
      (3072, 1024),
      (None, 512),
  )

虽然数值上准确,但由于可用内存较少,因此与NVIDIA A100 (80GB) 的设置相比,该配置的吞吐量会较低。

虽然也可以在单个NVIDIA V100上使用run_alphafold.py中的--flash_attention_implementatinotallow=xla来运行长度最多为1280 token的AlphaFold3,但此配置尚未经过数值准确性或吞吐量效率的测试,因此请谨慎操作。

相关资讯

27亿参数的「野生版」GPT-3开源,GitHub项目2.9K Star量

OpenAI 著名的语言模型 GPT-3 可以懂数学、翻译文字,还能写论文拿到及格成绩,这样的 AI 什么时候才能开源呢?现在已有了一个差不多的项目。
3/26/2021 3:50:00 PM
机器之心

首个中文版ChatGPT来了:大模型的中国元“Yuan”

ChatGPT 到底有多火?它已成为史上最快传播的应用,发布两个月后就有了 1 亿用户。实现同样的用户量,TikTok 需要近九个月,而 Instagram 用了两年多。
2/7/2023 9:19:00 AM
机器之心

还在为玩不了ChatGPT苦恼?这十几个开源平替也能体验智能对话

本文将为大家盘点一下 ChatGPT 的开源平替项目。
3/19/2023 1:30:00 PM
机器之心

谷歌内部文件泄漏:谷歌、OpenAI都没有护城河,大模型门槛正被开源踏破

「我们没有护城河,OpenAI 也没有。」在最近泄露的一份文件中,一位谷歌内部的研究人员表达了这样的观点。
5/5/2023 2:47:00 PM
机器之心

大模型迎来「开源季」,盘点过去一个月那些开源的LLM和数据集

前段时间,谷歌泄露的内部文件表达了这样一个观点,虽然表面看起来 OpenAI 和谷歌在 AI 大模型上你追我赶,但真正的赢家未必会从这两家中产生,因为有一个第三方力量正在悄然崛起。这个力量就是「开源」。
5/16/2023 2:53:00 PM
机器之心

百川智能发布开源中英文大模型,多个榜单评测成绩最佳

王小川创立的百川智能发布中英文大模型,采用开源模式,可免费商用。报道 | 机器之能2023年6月15日,被称为「中国ChatGPT梦之队」的百川智能公司,推出了70 亿参数量的中英文预训练大模型——baichuan-7B。baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上,以显著优势全面超过了ChatGLM-6B等其他大模型,并且在MMLU英文权威评测榜单上,大幅领先LLaMA-7B。目前baichuan-7B大模型已在Hugging Face、Github以及Model Sc
6/15/2023 6:13:00 PM
机器之能

超越所有开源模型,击败 Claude、Bard,专门用于编程任务的大模型来了

开源 LLM 的性能越来越好了。
6/20/2023 2:34:00 PM
机器之心

第一个超越ChatGPT的开源模型来了?网友并不买账

开源模型真的超过 ChatGPT了吗?
7/3/2023 2:41:00 PM
机器之心

彻底开源,免费商用,上海AI实验室把大模型门槛打下来

大模型领域,有人探索前沿技术,有人在加速落地,也有人正在推动整个社区进步。
7/12/2023 6:44:00 PM
机器之心

iPhone、Mac上都能跑,刷屏的Llama 2究竟性能如何?

昨天凌晨,相信很多人都被 Meta 发布的 Llama 2 刷了屏。OpenAI 研究科学家 Andrej Karpathy 在推特上表示,「对于人工智能和 LLM 来说,这确实是重要的一天。这是目前能够把权重提供给所有人使用的最为强大的 LLM。」
7/20/2023 2:23:00 PM
机器之心

Llama 2 的入门与实战,机器之心邀请了 4 位技术大牛手把手教你

机器之能报道编辑:Sia「Llama 2 大模型算法与应用实践」-机器之心 AI 技术论坛将于 8 月 26 日在北京举办。如果要问「2023 年最火的动物是什么?」AI 圈外的人可能会回答「熊猫」,并给你列出一长串熊猫的名字。而 AI  圈内的人八成会回答「羊驼」。而且,他们也能给你列出一长串「羊驼」的名字:llama、vicuna、alpaca…… 得益于 Meta Llama 模型的开源,AI 社区的研究者对生物学羊驼属的英文单词已经如数家珍,每个单词都对应着一个(或一组)基于 Llama 的微调模型。这些模
7/30/2023 11:42:00 PM
机器之能

讯飞星火V3.5正式发布,基于全国产算力平台“飞星一号”训练

1月30日,科大讯飞举行星火认知大模型V3.5升级发布会。科大讯飞董事长刘庆峰、研究院院长刘聪正式发布基于首个全国产算力训练的讯飞星火V3.5。2023年10月24日,科大讯飞携手华为,宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用。启用后的90多天里,讯飞星火基于“飞星一号”,启动了对标GPT-4的更大参数规模的大模型训练,带来了1月30日这场讯飞星火V3.5升级发布。首个基于全国产算力训练的全民开放大模型讯飞星火V3.5在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力和多模态能
1/30/2024 8:38:00 PM
机器之心

开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有

「太狂野了」。这是迄今为止最强大的开源大语言模型,超越了 Llama 2、Mistral 和马斯克刚刚开源的 Grok-1。本周三,大数据人工智能公司 Databricks 开源了通用大模型 DBRX,这是一款拥有 1320 亿参数的混合专家模型(MoE)。DBRX 的基础(DBRX Base)和微调(DBRX Instruct)版本已经在 GitHub 和 Hugging Face 上发布,可用于研究和商业用途。人们可以自行在公共、自定义或其他专有数据上运行和调整它们,也可以通过 API 的形式使用。基础版::
3/28/2024 3:15:00 PM
机器之心

快速入门大模型技术与应用,推荐你从Stable Diffusion开始学起

自 2023 年 AI 技术爆发以来,以 ChatGPT、Stable Diffusion 为代表的大模型已然成为了大众的焦点,其中 Stable Diffusion 作为知名的视觉开源模型,凭借直观易用与令人印象深刻的图像生成能力,赢得了创作者的广泛青睐。随着人工智能技术的不断进步和创新,Stable Diffusion 已经在艺术创作、设计领域乃至科学研究中展现出了独特的魅力和巨大的潜力。它不仅能够在短时间内生成高分辨率、细节丰富的图像,还能够通过简单的文本描述实现复杂视觉内容的创造,这使得 Stable Di
5/29/2024 3:10:00 PM
机器之心

周鸿祎自称“开源信徒”:宣布将开源 360 智脑 7B 模型,支持 50 万字长文本输入

感谢360 创始人周鸿祎近日透露即将开源 360 智脑 7B(70 亿参数模型),支持 360k(50 万字)长文本输入。周鸿祎表示,前段时间大模型行业卷文本长度,100 万字“很快将是标配”。“我们打算将这个能力开源,大家没必要重复造轮子,定为 360k 主要是为了讨个口彩。”他还自称“开源的信徒”,信奉开源的力量。据介绍,360 智脑长文本能力已入驻大模型产品“360AI 浏览器”。周鸿祎还谈到了小模型的优势:其认为小模型速度快、用户体验也好,单机单卡就能跑,具备更高的性价比。目前,360AI 浏览器已向用户免
3/29/2024 3:27:56 PM
清源

Databricks 推出 1320 亿参数大语言模型 DBRX,号称“现阶段最强开源 AI”

Databricks 近日在推出了一款通用大语言模型 DBRX,号称是“目前最强开源 AI”,据称在各种基准测试中都超越了“市面上所有的开源模型”。IT之家从官方新闻稿中得知,DBRX 是一个基于 Transformer 的大语言模型,采用 MoE(Mixture of Experts)架构,具备 1320 亿个参数,并在 12T Token 的源数据上进行预训练。研究人员对这款模型进行测试,相较于市场上已有的 LLaMA2-70B、Mixtral、Grok-1 等开源模型,DBRX 在语言理解(MMLU)、程式设
3/31/2024 3:15:05 PM
漾仔

阿里通义千问开源 320 亿参数模型,已实现 7 款大语言模型全开源

感谢4 月 7 日,阿里云通义千问开源 320 亿参数模型 Qwen1.5-32B。IT之家注意到,通义千问此前已开源 5 亿、18 亿、40 亿、70 亿、140 亿和 720 亿参数 6 款大语言模型。此次开源的 320 亿参数模型,将在性能、效率和内存占用之间实现更理想的平衡。例如,相比通义千问 14B 开源模型,32B 在智能体场景下能力更强;相比通义千问 72B 开源模型,32B 的推理成本更低。通义千问团队希望 32B 开源模型能为企业和开发者提供更高性价比的模型选择。目前,通义千问共开源了 7 款大语
4/8/2024 11:50:26 AM
远洋

360 智脑 7B 参数大模型开源,支持 50 万字长文本输入

感谢360 公司日前在 GitHub 上开源了 360 智脑 7B(70 亿参数模型)。360 智脑大模型采用 3.4 万亿 Tokens 的语料库训练,以中文、英文、代码为主,开放 4K、32K、360K 三种不同文本长度。360 表示,360K(约 50 万字)是当前国产开源模型文本长度最长的。360 表示,他们在 OpenCompass 的主流评测数据集上验证了模型性能,包括 C-Eval、AGIEval、MMLU、CMMLU、HellaSwag、MATH、GSM8K、HumanEval、MBPP、BBH、L
4/12/2024 6:30:18 PM
沛霖(实习)
  • 1