AI在线 AI在线

谷歌开源DeepPolisher,基因组组装错误率减半,Jeff Dean:令人振奋!

编辑丨coisini精确的基因组组装(Genome assembly)是生物学研究的基石,但即便是最高质量的组装仍会残留构建技术导致的错误。 人类基因组包含 30 亿个核苷酸,即使微小的错误率也会导致错误总量惊人,进而削弱基因组数据的应用价值。 碱基层面的错误通常需要通过额外的抛光(polishing)步骤来修正 —— 该步骤利用与初版组装比对后的测序读段来识别必要的编辑。
图片

编辑丨coisini

精确的基因组组装(Genome assembly)是生物学研究的基石,但即便是最高质量的组装仍会残留构建技术导致的错误。人类基因组包含 30 亿个核苷酸,即使微小的错误率也会导致错误总量惊人,进而削弱基因组数据的应用价值。

碱基层面的错误通常需要通过额外的抛光(polishing)步骤来修正 —— 该步骤利用与初版组装比对后的测序读段来识别必要的编辑。然而,现有方法难以在过度抛光与抛光不足之间取得平衡。

为此,谷歌联合加州大学圣克鲁斯分校基因组学研究所等机构开发了一款新型深度学习工具 ——DeepPolisher,旨在通过精准修正碱基级错误显著提升基因组组装精度。

图片

论文地址:https://genome.cshlp.org/content/35/7/1595

开源地址:https://github.com/google/deeppolisher

DeepPolisher 近期在完善人类泛基因组参考图谱中发挥了关键作用。谷歌首席科学家 Jeff Dean 称赞道:「(DeepPolisher)在基因组组装精度方面取得了令人振奋的进步!」

图片

DeepPolisher 的创新突破

DeepPolisher 是一个基于 Transformer 架构的纯编码器模型,利用 PacBio HiFi 读段与二倍体组装的比对结果来预测底层序列的修正方案。

图片

DeepPolisher 创新性地引入了「纯合区域读段定相法(PHARAOH)」,通过 ONT 超长读段数据确保比对相位准确性,并能在错误纯合区域正确引入杂合性修正。

DeepPolisher 的训练数据来自个人基因组计划(Personal Genomes Project)捐赠的人类细胞系基因组。该参考基因组经过美国国家标准与技术研究院(NIST)和美国国家人类基因组研究所(NHGRI)的全面鉴定,并采用多种测序技术验证,预计完整度达 100%,准确率达 99.99999%。

研究团队使用人类 1-19 号染色体进行训练,21、22 号染色体用于模型筛选,20 号染色体用于最终精度验证。

模型输入包含四大维度:碱基信息、测序仪报告的质量分数、读段定位质量、错配碱基注释。DeepPolisher 能分类识别组装错误并提出修正方案,最终实现基因组组装的精准校正。

性能表现

DeepPolisher 能将基因组组装错误减少约 50%,其中「插入 - 缺失错误(InDel)」的改善尤为显著,降幅超过 70%。

插入 - 缺失错误的修正至关重要,因为碱基的插入或缺失会导致「移码突变 ( frame shift mutation)」,致使基因组注释程序漏标相关基因,从而影响临床分析或药物研发中的检测报告。

为了评估 DeepPolisher 的优化效果,研究团队已将其应用于人类泛基因组参考联盟(HPRC)新数据发布的 180 个组装样本,通过交叉验证不同测序技术对同一样本的检测结果,成功识别出组装序列中的异常核苷酸组合,使基因组主要区域的预测质量值(QV)从平均 Q66.7 提升至 Q70.1,平均提升 3.4(相当于错误率降低 54%),并且所有评估样本均展现出显著改进。

图片

DeepPolisher 现已投入实际应用。今年 5 月,HPRC 宣布的第二批数据经 DeepPolisher 处理,单核苷酸错误和插入 - 缺失错误率降低至原有水平的 50%,最终实现每五十万组装碱基中错误少于一个的极低误差率。

谷歌表示将 DeepPolisher 作为开源工具发布,是为了让其更广泛地服务于科研社区。DeepPolisher 将持续为科学界优化基因组学资源。

参考内容:https://research.google/blog/highly-accurate-genome-polishing-with-deeppolisher-enhancing-the-foundation-of-genomic-research/

相关资讯

超强DNA大模型「GENERator」问世!解锁生命密码设计新范式

编辑 | ScienceAI在基因组学研究领域,DNA 序列的解码与预测一直是科学家们面临的核心挑战。 随着测序技术的飞速发展,我们能够以前所未有的速度获取海量基因组数据,但如何高效解读这些复杂的遗传信息,仍是一个亟待解决的难题。 近年来,大语言模型(LLMs)在自然语言处理领域的成功,为生物序列分析带来了新的契机。
2/17/2025 10:11:00 AM
ScienceAI

人类增强子突变敏感性图谱首次绘制:AI 与体内实验揭示发育调控密码

编辑丨&ENCODE 计划(Encyclopedia of DNA Elements)中提到,人类基因组中仅 2% 序列编码蛋白质,其余 90% 非编码区的调控功能长期成谜。 了解人类生物学需要的不仅仅是绘制基因图谱,还必须了解基因表达是如何被调节的,以指导身体系统的健康发育、生长和维系。 对于作为远端调控元件的增强子,其突变与先天性心脏病、肢体畸形等发育疾病密切相关。
7/10/2025 3:02:00 PM
ScienceAI

Nature丨从基因组到田间,华中农业大学、中国科学院等提出融合生物技术与AI的育种新范式

编辑丨&农业,生民之本。 当金黄的麦浪与稻田在风中起伏,农业研究者的辛劳不知是否会因此而减轻少许。 部分研究者所采用的传统针对作物改良的方式受限于自然与植株本身的潜力,在当下还无法满足粮食安全的需要。
8/4/2025 10:24:00 AM
ScienceAI
  • 1