技能破局？畅谈元宇宙大浪下的AI技能流实践机遇与应战

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动将来的AI技能」与「重塑产业的AI科技」，推出线上分享，共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式，与行业精英、读者、观众共同回顾 2021年中的重要技能和学术热点，盘点AI产业的年度研究标的目的以及重大科技突破，展望2022年度AI技能落后标的目的、AI技能与产业科技融合趋势。

本文为「驱动将来的AI技能」系列主题「元宇宙」圆桌环节的分享内容节选。点击进入「机器之心Pro」，查看更多优质内容。

技能破局？畅谈元宇宙大浪下的AI技能流实践机遇与应战

在圆桌环节，安谋科技AIoT事业群联合负责人商德明、影眸科技创始人，上海科技大学MARS实验室学生负责人吴迪、Autodesk AI Lab研究科学家，Daily ArxivRadiostation主持人楚航、华东师范大学副教授，CCF YOCSEF上海AC委员李洋围绕本期的主题探讨三个方面的问题：回顾元宇宙建立的AI技能路径与探索实践、哪些AI技能将有可能对下一代假造世界的工业标准形成产生重要影响？还有新一代假造世界的将来落后趋势。以下为部分精选 QA，完整内容可通过机器之心机动组视频号回顾了解。

过去的一年里，在为新一代假造世界的建立方面进行的探索性工作中，有没有让您认为比拟惊艳或者很有价值的学术工作？为什么？

楚航：关于新一代假造世界建立方面的探索性工作，我从计算机视觉和人工智能的领域分享一下。

第一个是 NeRF ，神经辐射场。从学术经验上看，我认为 NeRF技能的更新迭代十分快，让我认为十分惊艳。NeRF 从一年前的第一版到改筛版的 NeRF++，再到谷歌的及时衬着SNeRG，以及 ICCV上就看到的PlenOtrees。在最近几个月它还出现了极简版Plenoxels，也达到了及时的衬着效果；前两个礼拜前还看到NVIDIA发布的 NGP ，将训练时间缩减至 5 秒。同时，NeRF 在产业上也有很大的运用。最令我惊艳的是阿里的淘系技能部发表的 ObjectDrawer 也是达到了很逼真的效果。

第二个惊艳到我的是数字人的标的目的。一个是 MetaHuman 在EPIC 发表的矩阵觉醒（ Matrix Awakens）里也有比拟好的运用。另一个是最近在新闻上看到的：加入了Unity 的 Ziva Dynamics 做的数字人。

从学术界令我印象最深刻的是我之前在 Facebook 期间的研究经理Shugao Ma博士主导的Pixel Codec Avatars 研究，对 Codec Avata 技能的精度和及时性达到极大提升。

李洋：楚航博士、吴迪和张星辰老师分享的工作都是都是近些年来学术界高度关注的内容，不管是 NeRF 、还是隐视表达技能和吴迪团队技能，我都为之惊艳。

除了上述内容，我还想提一下现在学术圈关注的感知范围或者重建范围，其实还有一些标的目的是把 NLP 和 CV 的标的目的进行结合，虽然这个标的目的刚起步，还不至于让人“惊艳”，但是我认为假造人、自动交互、ID 型MetaHuman都会是基础的学术研究标的目的。

如何理解web 3.0和元宇宙的关系？自从Transformer之后，似乎很久没有看到特别大的突破了，视觉大模型和多模态的落后并没有预期地那么快。当前AI技能的落后速度对假造世界的升级速率的影响有多大？

楚航：关于元宇宙和 web 3.0，我认为它们之间的关系像是生产力和生产关系之间的关系。元宇宙相当于生产力，而 web 3.0 是生产关系。

我们可以这样去设想这件事情。如果我们逐步地把我们生活的一部分往元宇宙沉迷式体会里迁移，等到我们迁移到一定的程度，花费一定的时间在元宇宙里以后，我们发现元宇宙里面的物资的所属关系好像还是在传统的围墙花园式结构里，这是 web 2.0 的结构，那么明显是与它不适配的。

所以我认为元宇宙与 web 3.0 之间的关系，同样可以用生产力和生产关系之间的定义来解释：生产利益决定了生产关系，生产关系反作用于生产力。所以我认为在元宇宙这里也是同样适用的。因为在新一代的元宇宙生产方式，交互方式要求一定要有web 3.0 这样的一个生产关系。同时如果有 web 3.0 作为基础的建立，它会很大的去促进以及解放元宇宙下面的运用场景。

关于第二个问题：在transformer 之后，大模型在多模态突破是有一些，但是并不是十分的迅猛。那么这对于 AI 的落后速度，对假造世界的升级有没有带来什么阻碍？我认为可以分两点来看。

第一点是大模型和多模态的最终的愿景是实现通用人工智能，即AGI。对于元宇宙来说，通用的人工智能不是一个必要条件，没有AGI，我们同样可以去进行沉迷式的元宇宙。有了AGI以后，元宇宙的内容端会极大丰富，所以我认为它起到了锦上添花的作用，但这并不是一个必要条件。另外，我认为现在的元宇宙的技能落后还处在一个早期的阶段。即使以现有的AI技能而言，我们的元宇宙也没有把它的最大的潜力发挥出来。

李洋：关于元宇宙和 web 3.0，我十分同意楚航博士的看法。我认为 web 3.0包含在元宇宙里，这两个都是一个十分大的概念。web 3.0 主要是一个 decentalize（去中心化）概念，相当于 crypto（加密货币）使用。对于元宇宙本身，如果你要在假造世界中建立出我们的世界，一旦涉及到交易、crypto 或者 decentralized 的概念，元宇宙就必须得包含在web 3.0 里。所以我认为二者的关系是相辅相成的，或者说二者在最近几年几乎同时出现，并不是巧合，他们当中有十分紧密的联系。我个人认为元宇宙包含 web 3.0，或者说 web 3.0 作为一个基础网络设施来建立出元宇宙。

自从Transformer 之后，视觉大模型和多模态的落后没有那么快。AI 的技能落后最近还是十分快，但是我们不一定要往大模型标的目的落后。比如每一个人类个体都不能说是大模型，我们并不是像蚂蚁一样有 central 的大脑，然后支配我们在行动。我们其实是分开的。我们每一个人可能都有自己的智能的环节。所以说大模型只是一个研究的路径。我们也在探索学术界、产业界等其他一些路径。

至于当前的 AI 技能落后速度对假造世界的升级速率影响有多大？我认为二者也是相辅相成的。二者之间的影响可能不是很大，但也取决于大家对假造世界的具体定义。

今年，国内外各大科技巨头纷纷推出元宇宙概念的假造世界产品与服务，云游戏、AR/VR、区块链、人工智能等一系列技能也都在元宇宙中找到了用武之地。如何看这场元宇宙热潮？

商德明：关于元宇宙热潮，我认为它是人类的梦想和能力交互迭代的过程，现在已经到达了一个新革命时间点。从干万年前的壁画，到后来各种的艺术以及所有人类奇思妙想的领域，我们希望我们的能力得到更大的延展，生命得到更大的延续，思想和梦想能够触及到更广的领域。

在追逐梦想的过程中，人类不断地落后自己的能力，刚开始，有汽车、飞机、各种各样的电器等等，这些落后其实是人类通过科技的不断进步来增强自己的能力进而实现梦想的过程。随着人类前期能力的扩展，新的梦想会更加丰富和落后。元宇宙也是落后进化历程中的一个阶段。

随着数字世界需求的丰富，我们需要更强的沉迷感，在数字世界里进行更多的活动和行为，元宇宙浪潮由此而生。元宇宙是一种实际的需求，它对我们能力也提出更多应战，尤其在终端的形态方面。可以看到智能手机已经是比拟成熟，而且在各方面的功能都已经满足人类对智能手机的需求。而元宇宙更多的是沉迷感体会，对于材质的衬着、光的感受，真实世界的视觉体会，对计算力的要求十分高，而且它是一个无限的扩展过程。在元宇宙延展的过程中，它需要行业机构或者学术研究共同推动，进一步降低功耗，提升算力，优化迭代新产品。虽然现在元宇宙只是一个开端，但是将来元宇宙一定能迎来落后浪潮。我十分期待元宇宙浪潮的到来和将来的落后。

今年假造数字人创业十分火，除了假造数字人的创业公司之外，您比拟看好哪个元宇宙技能创业的标的目的？有没有哪家公司的标的目的您比拟欣赏的？

吴迪：我认为元宇宙是一个大概念，有一句话十分重要：No one can beand island （任何人都不能成为一座孤岛）。在元宇宙主题下，如果我们缺失了任何一环，都不能很好地达到最终生活的延展和沉迷式体会。

如果没有假造世界，数字人会失去它的载体；没有数字人，假造世界也会失去它的生命和活力；如果没有区块链等相关技能，那么数字人的身份，包括资产的交易都很难达成；没有 AR 和 VR，就没有观看设备。所以在元宇宙大前提下，最重要的一点是：元宇宙是一个集所有技能为大成的载体，并不能说更加看好哪个元宇宙的技能标的目的。

我希望所有元宇宙技能都能在很好的时间节点发挥巨大程度，让我们在将来可以预见的时间内看到元宇宙真正的标的目的。和我的工作比拟相关的话，我可能会看到神经辐射场、神经衬着标的目的，它们其实是颠覆了一些现有的衬着管线，通过人工智能的生成来取代的现有的 Reconstruction 和 Rendering 过程。通过我们芯片的优化，可以让很多更加真实的场景不要通过光追的方法，而通过生成式的方法让每一个用户体会到在假造世界中的更加真实的场景。

我们还比拟关注的是区块链的相关技能、web 3.0 相关技能。因为我们说到将来数字人标的目的很大一部分是和人的身份相关的。那么怎么认证你的身份，怎么认证你生成的资产，怎么在元宇宙中用资产达到跨平台的交互？其实就会运用到十分多关于 web 3.0、区块链的技能。

相对AI技能本身，通信与半导体是否影响更大？从建立下一代假造世界的角度看，是上层算法，还是底层硬件起到的决定性因素会更大一些？

商德明：对元宇宙运用和AI 技能本身来说，其实算法和硬件就是一体的。只有把算法跟硬件有机、优化地结合，才是二者最终的决胜之道。

从建立下一代假造世界的角度看，是上层算法，还是底层硬件起到的决定性因素更大一些？我个人认为目前底层硬件的决定性因素更大，遇到的应战也更大。因为 AI 技能运用包括神经网络模型运行，算力有很大提升，但是终端芯片的功耗有十分大的应战。

比如 VR 眼镜，现在的体会时间也只能坚持三个小时左右。而 AR 眼镜，对功耗的要求更高。所以如果能够在有效的算力下，找出设备低功耗的解决方法，对我们来说都是十分大的应战。当然这些应战也推动了很多技能的落后，比如存算一体或者是压缩技能等优化迭代。

许多人认为假造数字人将来假造世界中的核心交互端口，决定当前假造数字人能做到什么程度的主要因素是什么？是算法、开发工具还是算力？

吴迪：我们把假造数字人分为超写实假造数字和卡通化假造数字人。对于超写实的假造数字人，很早以前，我们会通过“恐怖谷效应”来评价超写实假造数字人。

恐怖谷效应指在数字人达到 70% 以前，属于卡通化的角色；在数字人达到 90% 到 95 %的时候让人感觉特别恐怖；在其达到 98% 以上之后，让人对数字人感觉比拟好。在好莱坞的电影里已经跨过恐怖谷效应了，但是这是通过大量的人工扫描重建达到的跨越恐怖谷效果，这要求高人力成本、高算力。

而学界上第二次恐怖谷，需要更进一步去扫描人脸数据，通过neural rendering 和 NeRF等方法或者更低的算力去跨越恐怖谷。

所以，决定当前假造数字人能达到什么程度，算法开发工具和算力都是比拟重要的因素。在此过程中，我们可能会用到衬着工具、及时的 neural rendering 和 NeRF 算法，可能还需要在更好的GPU 上运行。

由此，我们认为决定当前数字人能做到什么程度的第一个因素是人工成本。第二个是算法算力平台和能力。第三个是假造人的角色，在元宇宙环境中，并不是所有的环境都需要一个比拟写实的假造人。而在某些环境下面，可能需要一个卡通角色，也可能需要一个不那么写实的角色。我们则是收集更多高精度人脸数据，通过人工智能数字技能去降低它算法算力开发成本，让假造人达到更加写实。

李洋：吴迪讲的十分全面，想要降低恐怖谷，或者达到十分真实的效果，我们现在各方面都比拟缺乏，制作成本高昂。将来如果真的想要在元宇宙中以数字人为交互核心，我们不光需要生产工具、开发工具，更多的是需要一整套完整高效的生产流水线，或者生成方法，它可能是 Neural Rendering 、光追、 3D Reconstruction 等十分先进的算法。

聚焦于您目前所从事的标的目的，新一代假造世界（元宇宙）在往下一步落后的道路上，目前存在的主要瓶颈是什么？

楚航：从计算机3D视觉来看，我认为元宇宙下一步的瓶颈是及时要求。新一代元宇宙的强调沉迷感，如果我们沉迷到元宇宙的环境中，出现衬着卡顿、延时问题，这会对用户造来不适感。所以这对算法有了更高的要求。

另一个新的要求是新一代元宇宙硬件，我们需要把它附到一个很小巧轻便的硬件上。所以这对我们的算法和构架就产生了极大应战。比如商总说的端云结合，或者用 NPU 来进行结合的方式。

商德明：除了芯片以外，元器件设备也是一个很大的应战。比如现在在隐形眼镜里部署微芯片对眼部追踪技能，其可以进行外部的无线连接，并且进行衬着。这对整个元器件的尺寸、散热等又提出了一个十分高的要求。

另外，运用的结合也是元宇宙在往下一步落后的道路上，存在的主要瓶颈。对于智能手机来说，只有让使用者和消费者拥抱这些运用，把这些运用作为自己日常生活中的一部分，才能激发良性循环落后。元宇宙运用也是如此。当然，在设备上要进一步突破瓶颈，还包括成本。

吴迪：我们认为将来主要的瓶颈有两个，第一个在于元宇宙的交互上，第二个在于它的衬着上。交互主要是及时和真实。我们认为最大的瓶颈在于如何去做一个及时又更加真实的交互系统。在将来元宇宙中，我们不可能让每一个人都能像电影动画制作那样去做表情，因为它更多的是在沉迷环境下做交互，及时体会。

对于元宇宙衬着的瓶颈来说，因为人的皮肤衬着比很多物品的衬着复杂很多，需要考虑光照在人脸的反射情况。这有可能要用到光追算法，需要比拟大体量的硬件。像以往电影制作中需要衬着农场可能一小时才能衬着几帧的速度去做衬着，这在将来的元宇宙及时交互体会中是不可接受的。

所以我认为在将来元宇宙尤其是元宇宙的人的体会里，比拟重要的是更加真实的表情驱动、人体动作驱动、皮肤材质衬着。

李洋：计算机视觉方面，从感知的角度，比如人脸的表情、三维重建方面，按照现在的标的目的应该可以走得很远，但是对于语义级的理解做得不是很好。动作是假造人在元宇宙交互中十分重要的因素。但计算机目前没有办法理解具体的动作，而只能通过动作捕捉把动作热记录下来。而计算机视觉和语音的结合，在一定程度上带进了语义的信息，包括一些场景图的理解等都是在想办法攻克元宇宙感知上的瓶颈。

将来的一年中，在新一代的假造世界，或沉迷式互联网逐步落后形成的道路上，目前主要的瓶颈是什么？其中，有可能在近期内就会有较大进展与突破的标的目的是什么？为什么？

楚航：我认为在元宇宙假造世界沉迷式互联网的主要瓶颈有两点。

第一个是运用瓶颈。从最近元宇宙文章的评论来看，大部分人都在说我们现实世界还没解决，我们搞元宇宙去了，这干这在干什么？作为一个用户，我不能切身地感受到元宇宙到底能为我带来什么价值？如何以肉眼可见的形式让元宇宙创造价值，如何让元宇宙成为所有人受益的运用？这是每一个元宇宙的从业者和研究者都应该去仔细思考的事情。

第二个瓶颈是技能瓶颈。元宇宙是物理世界与假造世界的一个接口，即物理世界数字化，数字世界物理化。而软硬件结合，硬件有很大瓶颈。从运用场景来看，会有算法和软件瓶颈。

对于近期内有较大进展与突破的标的目的这个问题，回到技能的角度，我最看好的标的目的是神经辐射场 NeRF 进展，其在将来还会继续保持高速落后。NeRF 光场的捕捉和重建实施呈现，是一种元宇宙原生的媒体形式，它像是我们在 VR 、AR 里看视频的全息体会。我们现在还处在比拟早期的阶段，但我认为就像可以看到视频编解码的技能迭代和落后一样，在将来的几年内，我们也会在光场看到同样的趋势。

商德明：我认为建立新一代的假造世界的主要应战来源于运用和设备硬件。不管是Meta，还是其他巨头，虽然他们在内容上有十分多的积累，但是他们都希望元宇宙新的形态或者新技能能够进一步落后，增强其内容的影响力和感染力。所以元宇宙的内容或者运用场景会是推动技能革命的核心动力。

吴迪：我认为这个问题里面用假造世界和沉迷式互联网来提问用得十分好。其实这些关键词也代表了元宇宙，它目前正处于刚刚开始起步的阶段。所以，我想说的是元宇宙落后的道路上到处都是瓶颈。

在软件层面上，我们如何去衬着一个真实世界，如何让每个人及时体会是一个瓶颈。

在硬件层面上，我们如何提高衬着速度和交互速度也是一个瓶颈。在系统集成层面上，底层的衬着系统，衬着平台如何和元宇宙接轨？还是一个瓶颈。在生态层面上，一个人到底以什么方式来接入元宇宙？元宇宙到底在生活中是起到一个什么样的作用？是成为生活的替代，还是成为生活的延伸，还是单纯让用户去玩一个游戏？

对于以上瓶颈，我们都是没有办法去做很好的回答。所以我很认同商总讲的一个观点：我们在将来去探索元宇宙将来的时候，只能一步一步往前走，发现它的问题，然后再去克服它的瓶颈。这是我们在将来元元宇宙的征程上面所必须要去做的，也必须要去面对的一件事情。将来可能有较大突破的标的目的是什么？从自身的技能进度看，我十分认同楚航博士的观点。在将来芯片能和神经网络更好的去适配，采集的数据库优化神经网络方面，神经辐射场（ NeRF ）包括神经网络衬着上，会得到巨大突破和进展。

李洋：从用户的角度来说，我们其实并不知道元宇宙之后到底是什么样，或者说到处都是瓶颈，最主要的瓶颈就是我们没有一个很有代表性的产品或者形式来告诉大家。

对于投资人、从业者、还是用户来说，只有当元宇宙的形态真正出现了，我们才有可能继续往前走。在技能层面，NeRF 毋庸置疑是十分快的迭代。在运用的角度上，我认为元宇宙的运用会被传播或者定义。我个人十分看好假造人，这是一个比拟有雏形的概念。在技能储上，除了Neural Rendering或者NeRF，我们在 Graphics 里也有十分多的技能沉淀，包括光追、皮肤表面散射。一旦我们有具体的元宇宙产品形式推出的话，我相信我们会走到下一个阶段。

观众提问：在假造世界中 Server Security 方面会有什么全新的应战吗？

商德明：Security 是元宇宙的核心，Security 在现实生活当中和安全同等重要。不管是 ID ，还是经济上、隐私方面都是关键。从元宇宙建立来说，从云端的架构到与人们息息相关的设备，比如 AIoT 设备，都要保证安全体系。从区块链到数字货币，人的信息保护上，都是一个完整的架构。比如硬件的加密、传输、安全认证，Arm提出的PSA 认证，还有各种各样的安全算法，这些都是 Security 的一部分。随着元宇宙体系架构的不断迭代和完善。只有进一步完善设备安全，规划系统使用场景，才能保证数据交互安全。

李洋：对于元宇宙和沉迷式网络来说， Server Security一定会有新的安全问题。但我认为更多的是一些新的应战。比如通过学术的研究让机器识别我们的动作来破译VR 的眼镜的密码、或者通过其他方式导致用户信息泄露。

观众提问：假造形象应该属于谁，应当是属于平台还是属于个人？比如魔兽世界的角色和装备不属于用户而属于平台。

吴迪：我陈述一下我的个人观点，并不代表将来可能真正往这个标的目的去落后。我认为将来假造形象属于个人，包括他的数字资产。因为在所有的数据传输过程中，不存在真正的图像和个人模型数据交换，比如通过web 3.0 的区块链认证方式，去中心化资产跨平台的交流方法。

将来在元宇宙中有很多平台运行，用户在平台里建立自己的假造形象，究竟是属于平台还是属于个人，可能是需要更进一步去探讨的问题。

商德明：人工智能刚出现的时候有很多讨论，包括伦理、法规、规则等。将来元宇宙继续落后的话，它也一定会出现归属问题，比如我们个人是归于我自己，那也可能还归属于家庭，属于一个组织、国家。ID 的归属也要遵从相应的规则，包括元宇宙相关的法规、伦理等等一系列问题。随着整个元宇宙的不断建立，元宇宙相关的法规、伦理问题也会不断迭代和完善。

李洋：我认为将来你的假造形象肯定是属于你自己的。假造形象作为元宇宙基础或者说decentralize 、web 3.0 的一个基础的属性，在技能层面上可以让它变成你自己的，包括电子合同在技能层面上已经可以实现了，一旦技能层面上可以实现的话，是必然会有公司这么做，那一旦他这么做的话，就会带动所有的人都会这么做，不然其他人就会没有相应的竞争力了。

观众提问：空间感的建立只能靠 XR 听觉建立吗？

李洋：我们的空间感一般来说是通过眼睛或者视觉系统来建立，而不是通过听觉。当然听觉是辅助的，比如听声音，判断。但是人类大部分信息 80% 都是通过眼睛来进行获取的。如果一个人戴过 VR 眼镜的话，比如说他站在高楼上，假如环境没有声音，他会感到害怕，有很强的空间感。但是所谓的空间感大部分时候是通过眼睛去建立的。

吴迪：我们说到的音频产生空间感，就是所谓的声场概念。其实在现在的游戏里面已经用到很多的空间音频方式。比如说打枪击游戏，可以听到枪声是从哪里传来的。但如果通过听觉去体会空间感，只有在屏幕上玩游戏才能体会到，大多数情况下，还是需要视觉去体会空间感。但元宇宙或者沉迷式的互联网强调的还是沉迷。不论是眼睛看到的，还是耳朵听到的，其实都是比拟沉迷的感觉，比如 VR 眼镜、刚刚商总所说到的隐形眼镜视觉上发生改变的方法。将来的空间感应该建立在视觉、听觉、语言、触觉感官等多个标的目的。

技能破局？畅谈元宇宙大浪下的AI技能流实践机遇与应战

{{userData.name}}已认证

技能破局？畅谈元宇宙大浪下的AI技能流实践机遇与应战

Creator 面对面 | 自监视进修范式未来可以或许在加强进修中发挥关键的作用

Creator 面对面 | 通往第三代人工智能的实践之路如何走？

独家对话李岩：宿华、经纬、红点资金支持，第一个「生成式推荐」创业公司｜AI Pioneers

墙裂推荐！Karpathy大模型培训课LLM101n上线了，非常基础

baidu李彦宏：开源模型是智商税，闭源模型更强大、推理本钱更低

Midjourney 再更新！V6 模型支持外绘拓展与局部重绘了!

Python 3.11正式版来了，比3.10快10-60%，官方：这或许是最好的版本

无需训练，主动扩大的视觉Transformer来了

教授何恺明在MIT的第一堂课

康奈尔大学发布用于增强型传感器以及高性能计算的a轴超导晶片