「清华系」视频天生公司生数科技宣布完成新一轮数亿元融资

机器之心 • 2024年 3月 12日下午4:57 • AI

近日，北京生数科技有限公司（以下简称“生数科技”）宣布完成新一轮数亿元融资，由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品立异及市场拓展。本轮由华兴资本担任独家财务顾问。生数科技成立于2023年3月，是全世界领先的多模态大模型公司，致力于图象、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院，此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技能人才。此前公司

近日，北京生数科技有限公司（以下简称“生数科技”）宣布完成新一轮数亿元融资，由启明创投领投，达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品立异及市场拓展。本轮由华兴资本担任独家财务顾问。

生数科技成立于2023年3月，是全世界领先的多模态大模型公司，致力于图象、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院，此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技能人才。此前公司已完成近亿元融资，过往股东还包括蚂蚁集团和锦秋基金等知名机构。

在多模态视觉模型的研发上，生数科技较早地确立了Diffusion Transformer架构，与不久前引起爆炸式关注的Sora在架构思路和实验路径上完全一致。所谓Diffusion Transformer是在Diffusion Model（聚集模型）中，用Transformer替换常用的U-Net，将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融会，能在视觉任务下展现出卓越的涌现才能。

DiT架构由伯克利团队于2022年12月发表。但其实早在2022年9月，生数科技创始成员就提出了基于Transformer的网络架构U-ViT，两项工作在架构思路与实验路径上完全一致，均是将Transformer与聚集模型融会。

当时，U-ViT就在千万至数亿参数量级范围内验证了极强的可扩展性（scaling up），这项工作在CVPR 2023发表，早于DiT成为全世界范围内最先被提出的Diffusion Transformer架构。

据生数科技介绍，生数对聚集模型融会架构的前瞻立异源自于团队多年的深耕。团队从事天生式人工智能和贝叶斯机器学习研究已有20余年，在深度天生模型突破的早期就开展了深入研究。在聚集模型方面，团队于国内率先开启了该方向的研究，成果涉及骨干网络、高速推理算法、大规模训练等全栈技能方向。

目前，团队于ICML、NeurIPS、ICLR等人工智能顶会发表相关论文近30篇，其中提出的免训练推理算法Analytic-DPM、DPM-Solver等突破性成果，获得ICLR杰出论文奖，并被OpenAI、苹果、Stability.ai等国外前沿机构采用，应用于DALL·E 2、Stable Diffusion等明星项目中。

2023年3月，团队开源了全世界首个基于Diffusion Transformer架构（U-ViT）的多模态聚集大模型UniDiffuser，在参数量和训练数据规模上，与Stable Diffusion直接对齐。在架构上，UniDiffuser比最近才采用DiT架构的Stable Diffsion 3领先了一年。

此外，除了单向的文生图以外，Unidiffuser支持更通用的图文任务，能够实行图生文、图文联合天生、图文改写等多种功能。

图：图象天生效果

在统一化架构的思路下，生数科技持续进行Scale up。在图文模型的训练中，参数量从最先开源版的1B不断扩展至3B、7B、10B及以上，使得模型在美学性、多元风格、语义理解等方面实行快速稳定的提升。同时在此基础上，通过拓展空间维度和时间维度，逐步实行3D天生和视频天生模型的训练。

依托底层U-ViT架构的立异尝试，截至去年9月，生数科技推出了基于统一的多模态多任务框架的产业级通用基础大模型（闭源版），全链路自主训练、自主研发，在图象天生、3D天生、视频天生等多项任务中达到国际一流水平。

3D天生可实行高精度与最快10秒级的模型天生，并推出全世界首个4D动画天生、可控3D场景编辑等工作。视频天生已实行短视频的编辑与天生才能，在画面美观度、连贯性方面实行了突破。

图：图生3D案例

图：多个图生3D模型快速拼装搭建的3D场景

此外，生数科技也积累了完整高效的工程化经验，拥有在大规模GPU集群上实行高效兼容、低成本的模型训练经验，并搭建了完整的数据管理和使用体系。从算法原理、算法架构，到工程实行、数据准备，生数科技打造了多维度、全方位的基础建设，这为后续多模态大模型，尤其长视频天生的训练奠定了重要基础。

在商业化落地方面，依托于全面领先的MaaS（模型即服务）才能，生数科技在2B、2C端同时发力，一方面以API的形式向B端机构直接提供模型才能，另一方面打造垂类应用产品，按照订阅等形式收费。

目前公司已与多家游戏公司、个人终端厂商、互联网平台等B端机构开展合作，开放模型服务，提供AIGC个性化体验、定制化内容生产等方面的才能。

同时也于去年上线两款工具产品：视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft，面向艺术设计、游戏制作、影视动画、社交娱乐等创意领域提供赋能，提升创作效率，同时为创作者提供源源不断的灵感和想象力。

对于未来的规划，生数科技始终坚持“原生多模态”方向，基础模型层面会持续优化，不断提升语义理解、可控性、美观度方面的天生效果，近期则将重点突破长视频天生才能。在产品端，现有产品将持续迭代，不断满足用户需求，实行用户量的持续增长，同时公司也正在探索工具以外的全新产品形态，致力于提升每个人的创造力和生产力。

投资人评价

1、启明创投合伙人周志峰

如今的大模型已经从原来的纯语言模态，逐步走向多模态的探索。生数科技从去年成立之初就选择多模态赛道，是国内这个领域起步最先、积累最深的团队，大量工作被OpenAI、Stable Diffusion团队引用。生数科技推出的U-ViT架构作为全世界Diffusion Transformer架构的首创，不仅具有前瞻的技能视野，更是经过了大规模训练的验证，展现出强大的技能可行性。这种兼具开拓性和成熟度的核心工作，让我们对生数科技在多模态大模型方向的长期发展充满信心。

今年过年期间，Sora的亮相不仅展示出视频天生技能的巨大潜力，而且增强了人们对于多模态天生未来发展的信心。随着Scaling Law在视频天生领域的进一步加强，我们预期多模态技能将引领一系列令人瞩目的立异和令人惊叹的成果。在这一过程中，生数科技无疑将扮演一个关键的推动角色！

2、达泰资本合伙人姚承

在当下大模型赛道的竞争中，生数科技在多方面都脱颖而出。不仅敏锐洞察到多模态的前沿趋势，而且作为国内最先投身多模态赛道的公司，生数科技在过去短短一年的时间内就取得了令人瞩目的成绩单，从基础设施、模型算法、数据资源到场景化应用积累了独特的竞争优势。同时生数科技也是国内极少拥有“从零开始、自主训练”大模型才能的公司，具备深厚理论基础和实践经验，拥有突破主流框架技能难点和瓶颈的技能实力，因此我们坚持在人工智能领域的布局，并对生数科技未来发展充满期待。

3、智谱AI CEO 张鹏

智谱AI CEO 张鹏表示：作为清华系的创业团队，生数科技是国内最先开展深度天生式AI研究的组织之一。从对抗天生网络到聚集模型，生数科技敏锐洞察到融会架构的重要性，将其作为原生多模态的技能核心和重要支撑。智谱AI很高兴同生数科技展开深入合作，助力生数科技多模态核心技能研发与商业化探索，一同推动多模态大模型技能落地应用，更好惠及千行百业。

4、华兴资本董事总经理、华兴资本集团联席总裁王力行

我们身为生数科技的亲密战友，见证了公司的厚积薄发和无限潜力。作为全世界顶尖的研发团队，生数科技在基础理论架构和工程实行等层面展现出了超群的立异力和前瞻性，率先提出U-ViT架构并一以贯之，引领了多模态行业的发展；同时团队以极强的执行力和落地速度，陆续在图象、3D、视频天生等领域贡献了艺术级的作品。作为未来数字世界的天才建筑师，生数将率先攻克多模态天生瓶颈，把人类的创造力和艺术构想一一落为现实，始于科学、忠于立异、迈向未来。

原创文章，作者：机器之心，如若转载，请注明出处：https://www.iaiol.com/news/qing-hua-xi-shi-pin-tian-sheng-gong-si-sheng-shu-ke-ji-xuan/

架构模型模态生数科技

机器之心

教授何恺明在MIT的第一堂课

上一篇 2024年 3月 11日上午11:47

94岁诺奖得主希格斯去世，曾预言「上帝粒子」的生存

下一篇 2024年 4月 10日下午3:00

AI

TensorFlow 2.4来了：上线对分布式训练和混合精度的新功能反对

今天，谷歌正式发布了 TensorFlow 2.4，带来了多项新特性和功能改进。

2020年 12月 15日
AI

这是机械之心举行的首场智能驾驭论坛，快来报名围观

有些声音认为主动驾驭技能指向遥远的未来，也有人认为它近在咫尺。但不可否认的是，不论是「无人卡一场值得等待的智能驾驭盛会！车」这种近乎科幻的场景、整车企业的迅速蜕变，还是已经实现商业化的Robotaxi，都代表着不再可逆的智能浪潮。在即将举行的2021世界人工智能大会（WAIC）中，这场被命名为「智行·破界」的智能驾驭高峰论坛将迎来数位深耕该领域的第一梯队代表人物，他们将在现场给出最具说服力的「答案」。该论坛由东浩兰生以及机械之心旗下的出行科技媒体——Auto Byte联合主办，其高朋声势及论坛规模无疑将使其成为整场

2021年 6月 21日
AI

单芯片处理器走到尽头？苹果&英伟达倾心多芯片封装，互连技能最关键

当单芯片处理器已达到极限，苹果和英伟达相继公布的芯片证明多芯片封装或许才是未来发展方向，但互连技能仍是一大难题和巨擘角逐的主战场。

2022年 4月 10日
AI

腾讯朱雀实验室推出代码防护技巧Deep Puzzling，让代码更难被猜透

随着AI技巧与网络安全结合得越来越紧密，鉴于AI技巧的网络攻防手段也在日益更替。11月26日，全球顶级的信息安全峰会HITB+Cyberweek 2021于近日举办，腾讯朱雀实验室专家钻研员Jifeng Zhu和钻研员Keyun Luo受邀参加，并进行了题为《Deep Puzzling: Binary Code Intention Hiding based on AI Uninterpretability》（《鉴于AI不可解释性的二进制代码用意躲藏》）的议题分享。会上，腾讯朱雀实验室展示了如何行使AI模型的特性，实

2021年 11月 27日
AI

baidu全新无人挖掘机功课体系登上国际权威期刊《Science Robotics》

近日，由baidu研究院机器人与自动驾驶实验室（RAL）团队牵头开发的全新无人挖掘机功课体系（AES）这一最新技能成果，登上了国际顶级期刊《Science》子刊《Science Robotics》，并获得了评审专家与期刊编委的高度评价。该研究融合了感知、活动布局和控制体系，可驱动挖掘机自主完成挖装恣意，从事24小时连续无人化功课，并成为全球首个实际落地的、可长时间功课的无人挖掘机体系，在工程机械自动化、无人化功课领域具有重要价值和影响。随着新型基础设施建设的大力推进，工程机械行业乘风而上，并不断向数字化、智能化方向演进。

2021年 7月 2日
AI

香港中文大学薛天帆老师招收全奖博士生、硕士生 | 2023夏季

新的一期招生正式启动！本期我们将为大家介绍香港中文大学多媒体实验室招收全日制全奖博士生和硕士生等相关信息。

2022年 10月 26日
AI

AAAI 2021论文：利用深度元进修对城市销量从事展望

对于线上和线下的零售行业，销量展望都是一项至关重要的恣意，它可以帮助企业更好的预备库存以及在各个仓库之间分配商品。特别是在大型购物节期间，强劲的促销活动将极大地促进消费。然而，可供参考的历史数据却非常稀缺。如何同时对城市的分歧地区和分歧时光段的销量从事展望，是一个非常具有挑战的问题。在2020年12月收录的AAAI 2021（CCF-A类）上，京东城市被收录了一篇名为《Robust Spatio-Temporal Purchase Prediction via Deep Meta Learning》的论文。该论文研

2021年 8月 11日
AI

模型越大表现越差，这个竞赛悬赏25万美元找大模型不擅长的使命，去试试？

帮大模型找bug还能赚钱，去试试？

2022年 7月 5日
AI

科研产业即将迎来AI赋能拐点

「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技术」与「重塑产业的AI科技」，推出线上分享，共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式，与行业精英、读者、观众共同回顾 2021年中的重要技术和学术热点，盘点AI产业的年度研究方向以及重大科技突破，展望2022年度AI技术发展方向、AI技术与产业科技融合趋势。

2022年 7月 22日
AI

跳过人脸检测和关键点定位，Facebook等提出及时3D人脸姿势估量新法子

来自 Facebook AI 和美国圣母大学的研究者提出了一种 6 自由度的及时 3D 人脸姿势估量技术，可以不依赖人脸检测和人脸关键点定位独立运行。

2021年 2月 9日

「清华系」视频天生公司生数科技宣布完成新一轮数亿元融资

相关推荐

发表回复