AI在线 AI在线

Koina:开源平台通过机器学习提升蛋白质组学数据分析效率,简化模型集成与应用

编辑丨&近几年来,蛋白质组学可谓是进入了「信息爆炸时代」。 单次实验可能生成上百GB的高维数据,这给传统分析工具带来了巨大压力。 而机器学习,尤其是深度学习技术,本应成为加速分析的利器。
图片

编辑丨&

近几年来,蛋白质组学可谓是进入了「信息爆炸时代」。单次实验可能生成上百GB的高维数据,这给传统分析工具带来了巨大压力。

而机器学习,尤其是深度学习技术,本应成为加速分析的利器。但碍于数据整合、模型应用门槛等问题,机器学习结果往往缺乏直观的物理或生物学解释,所得结果并不能使研究者信服。

但随着德国慕尼黑工业大学(Technical University of Munich)与美国密西根大学(University of Michigan)等推出 Koina 平台,一个开源的、去中心化的、在线可访问的模型库之后,这一现状得到了改善。

相关的研究内容以「Koina: Democratizing machine learning for proteomics research」为题,于 2025 年 11 月 11 日发布在《Nature Communications》。

图片

论文链接:https://www.nature.com/articles/s41467-025-64870-5

去中心化的机器学习平台

Koina 是一个去中心化的机器学习模型平台,旨在帮助蛋白质组学研究人员快速应用、评估并共享机器学习模型。平台通过为研究人员提供开放式模型库和简单接口,解决了模型与数据间的兼容问题,极大降低了技术门槛。

图片

图 1:Koina 的架构概述。

Koina 简化了新蛋白质组学机器学习模型的开发现过程,研究人员可以将自己训练的模型上传到平台,供全球学者访问、评估与使用。并且,该平台提供简单的 API 接口,帮助分析工具轻松集成机器学习模型。

图片

图 2:Koina 可以轻松集成到第三方软件中。

此外,平台可以根据输入数据类型和任务目标,自动推荐最合适的机器学习模型,甚至提供简单的模型训练和调优功能。团队实现了一种启发式算法,这可以根据模型在数据子集的预测值与实验值之间的协议来选择模型。

优化的分析流程

为了应对不同模型支持的翻译后修饰(PTMs)和肽长度方面的差异等加剧的繁琐问题,团队标准化了所有模型之间的交互与输入格式。而输出部分,则予以保留,以便用户能够将他们的预测与原始来源进行核对。

这个共享接口封装了技术异构的模型集合及其相关的预处理和后处理步骤,以独立计算单元的形式,为最终用户抽象了不必要的细节,以「工作流」或「执行图」的形式呈现。

图片

图 3:Prosit_2019_intensity和Prosit_2020_intensity_HCD模型的执行图。

后续的长期使用保持则采用 GitHub actions 的持续集成(CI)流程来支持。此外,Koina 支持同时托管不同版本的模型,这些设计选择促进了已发布模型的可重复性,促进了透明度和问责制,使其他研究人员能够更有信心地基于现有工作进行研究。

Koina 利用机器学习模型对已有数据进行训练,从而发现潜在的、复杂的肽段信息。在与 FragPipe 的结合使用中,它就提高了谱库的准确率与覆盖率。通过对比不同肽段的相似度,Koina 能自动纠正传统方法中的误识别。经过训练,它还能识别更多的低丰度肽段,平台实现了对肽段的高效检索,特别是在复杂的样本中。

让AI为生物学加速

Koina 的出现,意味着 AI 与生物学之间不再是「遥远的未来」,而是已经可以触及的现实。在这个平台的推动下,生物数据分析不再局限于传统实验,而是进入了一个可以迅速探索、验证、创新的新时代。

Koina 的方法完全独立于数据集的生物学或技术来源。该平台并非本质上局限于蛋白质组学,它可以轻松扩展到其他领域。通过邀请开发者参与 Koina,研究团队旨在营造一个协作环境,推动蛋白质组学机器学习的进步,最终惠及整个科学界。

相关资讯

搞 AI,孩子必须学好数学:马斯克 Altman 罕见达成一致,LeCun / Jeff Dean 等 31 位大佬签署联名信

【新智元导读】基础数学已经被拔高到研究 AI 的必经之路!UC 伯克利教授发起最新倡议,31 位 AI 大佬共同签署联名信,马斯克和 Altman 竟达成一致。就在刚刚,UC 伯克利 EECS 教授 Jelani Nelson 联合发起了一个倡议,强调「坚实的数学基础对人工智能至关重要」。地址:「虽然 Elon Musk 和 Sam Altman 最近在很多问题上都有分歧,但他们都认同,AI 的构建是以代数和微积分等坚实的数学基础为支撑的。」目前,已经有 31 位业内大佬在上面签署了自己的名字。要想搞好 AI,就必
3/7/2024 9:56:48 PM
清源

NeurIPS 2024 Workshop 科学基础模型: 进展, 机遇, 挑战

Workshop背景人工智能 (AI) 和机器学习 (ML) 在科学领域的应用代表了传统科学发现方法的重大转变。几个世纪以来,探索自然世界的过程遵循着系统和逻辑的方法。然而,人工智能和机器学习技术的出现,正在深刻改变现代基础科学的发现方式。这种变化对于促进跨学科交流、激发创新的解决方案,并最终提高科学界应对现代科学中最紧迫和复杂问题的能力至关重要。与此同时,经过大量多样化数据集训练的基础模型,在计算机视觉和自然语言处理等任务中展示了强大的适应性。这些模型,例如语言模型 GPT-4 和图像文本处理模型 CLIP,通过
7/20/2024 3:30:00 PM
新闻助手

AI加速优化求解,达摩院连续两年获求解器全国赛事冠军

以“AI 优化求解器”助力能源绿色转型,达摩院自研“敏迭”求解器连续获得权威赛事冠军。 1月17日消息,达摩院自主研发的“敏迭”求解器在工信部产业发展促进中心组织的第二届能源电子产业创新大赛上,再次斩获“国产求解器技术专题赛”冠军。 这是继近期入选工信部“人工智能赋能新型工业化”典型应用案例后的又一殊荣。
1/21/2025 10:12:00 AM
新闻助手