AI+Science手艺实践与产业运用中的挑战与机遇

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI手艺」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI规模知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要手艺和学术热点,盘点AI产业的年度研究标的目的以及重大科技突破,展望2022年度AI手艺发展标的目的、AI手艺与产业科技融合趋势。

本文为「重塑产业的AI科技」系列主题「ScienceAI」圆桌环节的分享内容节选。点击进入「机器之心Pro」,查看更多优质内容。

AI+Science手艺实践与产业运用中的挑战与机遇

在圆桌环节,创新工场的任博冰,华为昇腾的黄之鹏及天壤的苗洪江围绕本期的主题探讨三个方面的课题:AI forScience 的市场需求、AI for Science的手艺路径与探索实践,还有 AI for Science 未来发展标的目的以及挑战。以下为部分精选 QA,完整内容可通过机器之心机动组视频号回顾了解。

AI+Science手艺实践与产业运用中的挑战与机遇

昇思在2020年3月正式开源后快速在ScienceAI规模推进,华为对这个市场的具体思考和战略是什么样的呢?

黄之鹏:MindSpore社区作为一个对照新生而且还是国产的开源深度学习框架,我们为什么会把很大一部分的精力放在科学计算与 AI 结合这块?我们认为目前支撑科学研究的三大支柱:理论研究、科学实验、科学计算,当初基本上已经形成了。那再往前走的话,一个 AI深度学习自身框架的突破,需要有更深度的场景去驱动它,同时需要更加有力的需求去驱动它的开发。我们认为科学计算最能为我们提供创新场景,而且它在手艺上要求无比高。方才我的议题里也讲到场景实现的难度无比高。所以我们判断科学计算与AI结合是推动深度学习再往前发展的主要的标的目的之一。同时,我们发现,不少的科研规模,在运用了 AI 的方法之后,确实有了不少突破性的进展。

方才给大家介绍的例子是AlphaFold2, 本来除了分子这块之外,不少之前用传统数值计算无法实现的规模,我们已有一些突破,比如在地球物理不少气象的仿真,包括电磁的仿真、航天制造都是通过深度学习能力的加持实现的。

天壤为何选择从构造生物学入手?

苗洪江:我们之所以选择从构造生物学入手,从大的标的目的来讲,最重要的原因是我们方才已经提到的构造生物学在整个生物学中规模有着无比核心的价值和意义。我们只有快速、准确、大量的剖析蛋白质构造,才能对不少的生物课题进行基于生物学自身或者说物理化学自身的解释。另外,在ScienceAI规模,我们之前在围棋和交通等众多复杂场景办理方案中沉淀了不少的AI算法和能力,我们希望将能力继续扩大来办理Science的课题。但是我们看到在众多的Science课题里,构造生物学或者是说蛋白构造预测本来是众多生物学课题中数据充足、课题定义明确、而且对照适合 AI 的运用场景,而AI会极大的帮助到这一课题的办理。这就是为什么我们做的第一件事情,就是将 AI 的方式运用到构造生物学中,来剖析蛋白质的构造预测。

ScienceAI在科学上的突破用于商业,打开的是巨大的增量市场,可以请您介绍您及团队投了哪些ScienceAI规模的项目吗?有没有遇到过一些团队的手艺让您感觉眼前一亮,但是对市场需求思考不足、发展路径推敲不足或者商业逻辑对照超前较难验证的情况?

任博冰:我方才已经基本上介绍了一些我们投的项目,但创新工场的投资思路大概跟不少机构也不一样。我们会看一些发展标的目的对照的公司,如果没有这方面的公司,我们就自己孵化,对于像AlphaForl2这样的重大标的目的,我们会按照产业链去做布局。

我们的孵化和投资,主要围绕新的生产和安排能力带来的一些产业链上大概会遇到的一些课题来展开布局。比如说刚刚老师提到整体实验的高通量,我们投了实验室自动化的机器人、核酸的自动化实验、高通量的未来不流控的公司。围绕蛋白质组学数据不够,我们还投了蛋白质组学的公司,围绕着AlphaFold2带来的能力,创新工场也在投用 AlphaFold2的蛋白质构造安排去做合成生物和医药。材料方面,我们不光安排新的材料,我们还布局材料生产,从实验室到工厂,再到工厂优化生产、材料加工等上下游环节。

但是对于市场思考不足和发展路径推敲不足的情况,我感觉大部分科学家早期都会遇到这样的情况,但也不代表不能办理。在早期的时候,我们孵化的投资公司,大部分的课题我们是一起去做讨论和打磨的,一起讨论发展路径、打磨商业逻辑,跟他们一起去做客户调研、行业调研等等。面对以上情况,只要我们保持一个开放的心态,课题是可以办理的。当然我们也不能保证我们的想法一定是正确的,但至少经过深度思考和深度调研,成功率就会高一些。

目前使用AI算法办理构造生物学规模的课题,主要的手艺实践标的目的有哪些?可否请您简单介绍一下当前这些规模进展的情况?

苗洪江:目前来讲,整个构造生物学本来是一个无比大的规模,因为 2020 年AlphaFold2的出现导致大家对蛋白质构造预测关注度变高,但是构造生物学还有不少没有被办理的课题,希望 AI 可以或许进入,帮助我们来办理的课题。比如RNA构造的剖析、基因突变对蛋白质构造和功能的影响、蛋白质的动力学分析、蛋白质和其他小分子 DNA和RNA包括蛋白质的相互作用以及他们的复合体构造的剖析,都是我们当初正在关注和研究的标的目的。

天壤本来正在研究方才提到的像蛋白质相互作用和蛋白安排的标的目的,另外比如蛋白质的序列突变对于构造和功能的影响标的目的。本来不少人体疾病的发生都是由于我们的基因产生突变,导致蛋白质的序列和构造产生变化。这种构造的变化导致了核心蛋白质功能的缺失或者改变,从而导致了疾病的发生。而 TRFold 建立了快速准确的蛋白质构造预测的框架和理念,我们希望可以或许借助 AI 算法快速、准确地提取和剖析蛋白质序列和构造中间的关联关系,来帮助我们理解突变蛋白质构造和功能的影响,为将来我们在这个规模的生物机理研究和靶点、药物发现做更好的铺垫。

在AI+科学计算具体的实践过程中都有哪些难题?这些难题在团队的实践过程中是如何被办理的?

苗洪江:和大家分享一个在我们自己 TRFold 的训练过程中遇到的困难。Alphafold2 的训练是用了 128 张 TPU 来进行的。而我们TRFold训练资源只有 8 张3090的训练资源。我们希望在这样的资源下可以或许支持起一个模型框架,可以或许达到和它近似的预测水平。在整个过程中,我们就不得不在算法层面和计算层面做不少的优化,包括我方才提到的通过参数共享、精度混用的一些方式,通过介于中层和模型中间的优化,达到同时兼顾准确度和预测效率的提升。

黄之鹏:我们大概更偏底层一些,所以我们看到的基本上是对更基础的软硬件的挑战。当初的用来做拟合的这个模型的规模,趋势也越来越大。有的时候硬件毕竟还是有限的,当初不少人也都在看系数化,通过系数化去进行优化。对于我们来说,我们在开发MindSpore的时候,我们希望MindSpore提供自动并行的能力,除了在传统的框架一般会有数据并行模型并行之外,我们还可以提供更多维度的优化器的并行、流水线的并行等等。

除了通过加速生物及化学物理的科研进展,从而推动新药和新材料的研发之外,我们有大概看到AI手艺对其的推动、变革作用将显著被社会所知的下一个细分规模将是什么?这个规模取得突破所面临的最核心的难题是什么?

黄之鹏:我个人感觉,疫情给全球带来的变化需要大家重视起来。当初一些的人不重视疫情对全球的影响,本来是一个划时代的变化。我认为未来的基调本来是一个虚拟互联时代,物理上大概会有更多人因为疫情被隔离。由此,我对照关注生物信息的数字化标的目的。

当初我们看到的这些热点,不管是元宇宙,还是我们今天聊的 AI +科学计算,包括区块链涉及到的加密学、伊朗的太空发射、Neuralink、脑机接口,归根结底来说,我特别喜欢任老师提的可编程的世界的概念。我们在后疫情时代的大设定下,生物信息的数字化我感觉会是一个越来越重要的议题,它意味着生物体像元宇宙一样,生物体怎么接入到这个数字世界中,甚至包括着跨距离的虚拟层面的连接。我感觉在我们的业务范畴内,本来我对照关注的一个关键词叫就是circuit 。大家可以发现不管是做加密算法,还是我们做神经网络。不管你怎么去安排一个AI 算法的电路,还是一个加密电路。未来我们会看到 circuit 的安排是不是会朝着生物和手艺标的目的发展。方才我们说AI 和科学计算二者是交互影响,circuit 发展大概会朝向一个交互影响共同演进的趋势去发展,它所带来的生物信息的数字化会对各个方面带来手艺的需求,不管是 metaverse所带来的图像渲染或者是数据流通,对网络编码都会带来一些无比新的需求和新的手艺发展。

任博冰:因为 AI 手艺在不少规模都有运用。但是从AI手艺的推动来看,如果还要 AI 起主导地位的话,我感觉一部分是在人的认知理解上大概会是一个对照大的机会。当然它也会结合一些 AI 手艺,包括像 CV 和traffic 成分的结合。从训练的角度来讲,当初我感觉还无比无比简单,简单到当初在这个人自身几乎都没有办法去把它定义成一个人。但是从 LT 包括 CV 和 graphic 这方面,包括一些其他的硬件规模的进展来看,LT在未来几年大概在复杂推理上会有一些对照大的突破。在对话复杂推理这方面的融合,有大概离对人的情感计算一些理解大概会进入一个新的层次。我们目前看到一些运用已经基本上可以或许满足对照简单的一些对话了,只是在记忆和推理上面做不好。另外,在 graphic 和 CV 方面如何可以或许把物理世界和虚拟世界东西做很好的交互。大概未来在原本的基础上通过两到三年或者三到五年我感觉会有对照大的突破。这两点加起来,人和机器的交互大概会变成一个无比有意思的世界。 

第二个肯定是AI在生物里面突破。本来不光是AI,核心生物学的下游产业本来是包罗万象,其覆盖规模从食品农业到材料工业再到生物等等各个方面,所以它也是一个典型的通过编程可以或许获得一些新东西的一条路径。

苗洪江:对于产业来说,我个人对照看好的是合成生物学规模,因为合成生物学自身无比符合我们当初对食物、工业材料各个规模的需求。我们已经逐渐看到 AI 手艺在这个规模的运用,但是我们认为运用和产生的效果远远没有达到极限,本来还是会有无比大的空间可以去操作。

在科学方面,我个人感触对照深的是 AI 对于数学规模的影响。在2016 年、2017 年左右。AI 在解数学课题上只有初中水平且经常出错,到去年大家对照熟悉的AI 可以或许办理了薛定谔课题,Deepmind 还用 AI 的方式来启发数学家解之前我们不能解的数学课题,一直到像 MIT 研发的 AI 算法可以或许办理近似于大学水平的一些数学难题。我们可以看到在不仅仅是我们之前对照关注的大概更落地的规模,在一些大概对照接近基础学科的规模,本来 AI 也有无比大的运用的潜力和前景。

观众提问:请问安排新的网络构造更难还是安排新药更难?

黄之鹏:从我们的角度来说,大概还是会感觉新的网络构造会容易一些。因为当初不少新模型的开发本来更多的是算力资源加上人力投入,它是最终可以办理的一个课题。但是药物这块我确实不太熟悉,感觉新药的安排还是要更复杂一些。

任博冰:本来药的难点主要在科学的不确定性上,因为无论你如何去做仿真模拟,都不太大概去办理人体内的不少不确定因素,包括当初无论是小分子大概的拖把独立的课题,还有大分子有不少这样的不同的构态,所带来的空的特异性上的一些课题。我记得之前有一篇paper 报道中提到好像在过去的 20 年还是 10 年的动态里面,事实上 FDA 自身二期临床的成功率并没有显著的上升,本来在人体有太多的 QA 上的不确定性没有去理解。所以从确定性标的目的看,我感觉安排新药会更难一点。

苗洪江:从可控性上来说,我感觉本来对于模型的安排和模型的训练还是对照可控的。但是对于新药研发,是完全不可控的一个事情。人体自身或者说生物学细胞自身是一个无比复杂的体系,我们当初对这个体系的了解本来是无比片面而且是不全的,这就导致了我们在制药过程中会发现和遇到各种各样我们之前甚至没有想过的课题。这种不可控的风险本来在整个流程中是最值得关注的,这就是为什么我们希望通过模拟得到更多的数据,来尽量补齐之前知识或者信息的缺失,可以或许将这个不可控的风险尽量降低,将大家对照关注的新药的研发或者是一些治疗方式的研发,更快速、安全的提出和办理。

AI+Science手艺实践与产业运用中的挑战与机遇

AI

汽车网关性能新标杆,芯驰科技发布G9系列最新旗舰产物

2022-7-29 14:10:00

AI

无代码生产力对象赋能数字化供应链新发展

2022-8-1 20:51:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索