AI在线 AI在线

告别分镜制作!生数科技Vidu Q1"参考生"重塑视频制作流程

在WAIC2025世界人工智能大会上,生数科技重磅发布Vidu Q1"参考生视频"功能,通过算法创新彻底颠覆传统视频制作流程,为视频生成领域带来突破性进展。 告别分镜,一键直出视频"参考生视频"最大亮点在于跳过复杂的前期分镜制作环节。 用户只需上传人物、道具、场景等参考图,配合文字提示,即可直接生成完整视频素材。

在WAIC2025世界人工智能大会上,生数科技重磅发布Vidu Q1"参考生视频"功能,通过算法创新彻底颠覆传统视频制作流程,为视频生成领域带来突破性进展。

告别分镜,一键直出视频

"参考生视频"最大亮点在于跳过复杂的前期分镜制作环节。用户只需上传人物、道具、场景等参考图,配合文字提示,即可直接生成完整视频素材。制作流程从传统的"分镜生成——视频生成——剪辑——成片"简化为"参考图——视频生成——剪辑——成片"。

例如,输入"诸葛亮与丘吉尔、拿破仑在会议室讨论"的提示词,上传三位历史人物参考图和会议室场景图,系统即可生成三人同框对话的完整视频。

拟人化兔子 吹笛子 动漫电影

破解商业化核心难题

该功能核心优势在于解决视频模型商业化的关键瓶颈——主体一致性问题。Vidu Q1参考生目前支持最多七个主体同时输入并保持一致,据生数科技表示,这已能满足绝大部分创作场景需求。

生数科技CEO骆怡航表示,这种通用创作方式将更好地服务广告、动漫、影视、文旅、教育等多元商业场景,实现从线下拍摄到线上AI创作的本质转变。

技术路径与产业导向

生数科技采用U-ViT架构,结合扩散模型与Transformer技术,并在此基础上优化算法模块。Vidu模型内置多模态理解能力,已成功应用于视频生成。

骆怡航强调,团队以产业落地为主要导向,暂未将理解与生成一体化作为优先级,"行业客户更关心内容效果而非技术路线"。

拓展具身智能新领域

7月25日,清华大学与生数科技联合发布具身智能模型Vidar,通过"视频大模型+具身智能"路径实现低成本、少样本泛化。

骆怡航解释,视频模型与具身智能在本质上都处理时空信息,采用相同的输入决策逻辑。团队基于Vidu视频大模型,通过少量机器人实操视频训练,可将虚拟视频转化为对应机械臂动作,有效解决传统VLA路线的数据稀缺问题。

目前,Vidu仍以提升视频生成能力为最高优先级,将具身智能作为持续探索方向,为该领域开启潜在商业市场。

相关资讯

阿里达摩院推出一站式 AI 视频创作平台“寻光”:集成分镜设计、图层可控编辑等功能

2024 世界人工智能大会(WAIC 2024)期间,阿里达摩院推出了一站式 AI 视频创作平台 —— 寻光。官方表示,该平台旨在通过 AI 技术使视频创作更简单、高效,其集成了剧本创作、分镜设计、视频素材编辑等关键步骤,创作者可以从构思到成品,在该平台上完成视频创作全过程。据介绍,寻光包含如下功能:故事板生成:一键创建分镜故事板。“从剧本到分镜,让 AI 辅助你的导演创作之旅,无需再凭想象,画面油然而生。”定制故事角色:由 AI 为用户定制专属的“演员”。视觉素材自由创作:由 AI 根据用户想法生成具备一致性的角
7/6/2024 4:57:25 PM
清源

锦秋基金独家投资,生数科技完成数千万元天使+轮融资

近日,北京生数科技有限公司(简称“生数科技”)完成了数千万元天使 轮融资,本轮融资由锦秋基金独家投资。此轮资金将主要用于算法研发、产品开发和团队扩充。值得一提的是,今年六月生数科技刚获得蚂蚁集团、BV百度风投、卓源资本的近亿元天使轮融资,不到两个月的时间内已经连续获得两轮投资。生数科技是全球领先的生成式人工智能基础设施及应用提供商,致力于打造可控多模态通用大模型,团队于今年3月发布9.5亿参数开源版本多模态大模型 UniDiffuser,基于一个Transformer网络架构实现图文模态之间的任意跨模态生成。在此基
8/10/2023 9:59:00 AM
机器之心

「清华系」视频生成公司生数科技宣布完成新一轮数亿元融资

近日,北京生数科技有限公司(以下简称“生数科技”)宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。本轮由华兴资本担任独家财务顾问。生数科技成立于2023年3月,是全球领先的多模态大模型公司,致力于图像、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技术人才。此前公司已完成近亿元融资,过往股
3/12/2024 4:57:00 PM
机器之心
  • 1