AI在线 AI在线

效果最佳!阶跃星辰开源Step-Video-T2V 视频生成模型

今日,阶跃星辰与吉利汽车集团宣布,联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。 其中,阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。 该模型拥有300亿参数量,能够直接生成204帧、540P分辨率的高质量视频,确保生成内容信息密度高、一致性强。

今日,阶跃星辰与吉利汽车集团宣布,联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。

其中,阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。该模型拥有300亿参数量,能够直接生成204帧、540P分辨率的高质量视频,确保生成内容信息密度高、一致性强。评测结果显示,Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面均表现出色,显著超越市面上既有的最佳开源视频模型。

微信截图_20250218085337.png

目前,这两款模型均已在跃问App内上线,供开发者朋友们体验并提供宝贵建议。

阶跃Step-Video-T2V视频生成模型在复杂运动、美感人物、视觉想象力等方面展现出卓越的生成能力。它能够精准理解指令,高效助力视频创作者实现创意呈现。无论是高雅优美的芭蕾舞、对抗激烈的空手道,还是紧张刺激的羽毛球、高速翻转的跳水,Step-Video-T2V都能生成真实且符合物理规律的画面。

同时,它还支持多种镜头运动方式和景别切换,能够生成大幅度运镜的视觉效果。生成的人物形象则更加逼真、生动,细节丰富,表情自然。

GitHub:

https://github.com/stepfun-ai/Step-Audio

Hugging Face:

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

技术报告:

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

相关资讯

阶跃星辰发布新一代基础大模型 Step 3,华为昇腾芯片已首先实现搭载

AI在线 7 月 26 日消息,在 2025 世界人工智能大会(简称“WAIC 2025”)开幕前夕,阶跃星辰昨天在上海正式发布了新一代基础大模型 ——Step 3,将于 7 月 31 日面向全球企业和开发者开源。 据官方介绍,Step 3 是阶跃星辰首个全尺寸、原生多模态推理模型,兼顾模型效果与推理成本,是在模型架构创新、算法工程协同设计上的一次大胆尝试与 Scale Up。 Step 3 采用 MoE 架构,总参数量 321B,激活参数量 38B。
7/26/2025 7:31:52 AM
浩渺

阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力

AI在线 7 月 31 日消息,阶跃星辰宣布新一代基础大模型 Step 3 正式开源,Step 3 API 已上线阶跃星辰开放平台(platform.stepfun.com),用户也可以在“阶跃 AI”官网(stepfun.com)和“阶跃 AI”App 进行体验。 据介绍,Step 3 的多模态能力围绕“轻量视觉路径”与“稳定协同训练”展开,重点解决视觉引入带来的 token 负担与训练干扰问题。 为此,其采用 5B Vision Encoder,并通过双层 2D 卷积对视觉特征进行降采样,将视觉 token 数量减少到原来的 1/16,减轻上下文长度压力,提升推理效率。
7/31/2025 10:18:00 PM
远洋

告别微软,姜大昕带领这支精英团队攀登Scaling Law,万亿参数模型已有预览版

攀登 Scaling Law,打造万亿参数大模型,前微软 NLP 大牛姜大昕披露创业路线图。前段时间,OpenAI 科学家 Jason Wei 的一份作息时间表引发了广泛关注。表中有很多让人看了会心一笑的梗,比如「9 点 45:背诵 OpenAI 章程,向最优化的神祷告,学习《苦涩的教训》」「10 点用 Google Meet 开会,讨论怎么在更多数据上训练更大的模型」「11 点写代码,用来在更多数据上训练更大的模型」「1 点:实操,在更多数据上训练更大的模型」「4 点:对用更多数据训练的更大的模型进行提示工程」…
4/1/2024 3:05:00 PM
机器之心
  • 1