视频生成
微软必应推出全新视频创作工具,用户可轻松生成 AI 视频
微软必应(Microsoft Bing)于本周一正式推出了一款全新的 “Bing 视频创作器”,这项功能基于 OpenAI 的 Sora 模型,标志着视频生成能力的首次免费开放,普通用户也可以轻松通过文本提示生成视频。 此次 Bing 视频创作器的上线,让用户能够用简单的文字描述,创造出属于自己的短视频。 值得注意的是,这一功能目前仅支持移动设备,尚未在桌面端推出。
6/3/2025 9:01:04 AM
AI在线
昆仑万维开源 SkyReels-V2 模型,开启生成“无限时长”视频时代
其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。
4/21/2025 3:05:29 PM
清源
轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动
轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。 近年来,视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。 在此基础上,(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。
3/27/2025 9:24:16 AM
量子位
清华大学开源 Video-T1:无需重新训练 AI视频秒变高清大片
近日,清华大学的研究团队开源了其最新的研究成果——Video-T1。 这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性,而无需重新进行昂贵的模型训练。 这一创新性的方法为视频生成领域带来了新的可能性。
3/26/2025 2:30:00 PM
AI在线
xAI收购AI视频生成初创公司Hotshot,加强与OpenAI Sora竞争
近日,埃隆·马斯克的人工智能公司xAI已收购了视频生成初创公司Hotshot,这标志着马斯克在AI视频生成领域的重要布局。 Hotshot首席执行官兼联合创始人Aakash Sastry周一在社交平台X上正式宣布了这一消息。 Sastry在公告中表示:"过去2年中,我们作为一个小团队建立了3个视频基础模型——Hotshot-XL、Hotshot Act One和Hotshot。
3/18/2025 9:16:00 AM
AI在线
千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/26/2025 12:54:00 PM
机器之心
谷歌AI视频生成模型Veo 2使用成本曝光:一分钟视频要30美元
谷歌近日悄然公布了其视频生成 AI 模型 Veo2的定价信息,Veo2最早是在去年12月被披露的,这一新模型吸引了不少关注。 根据谷歌的定价页面,使用 Veo2的费用为每秒50美分,这样算下来,每分钟的视频费用为30美元,每小时的视频费用则高达1800美元。 谷歌 DeepMind 的研究员乔恩・巴伦(Jon Barron)对这一定价进行了有趣的比较,他提到了备受瞩目的漫威电影《复仇者联盟:终局之战》的制作预算,该预算高达3.56亿美元,折合每秒约32,000美元。
2/24/2025 9:04:00 AM
AI在线
Gemini 或将支持视频生成?Google 应用代码泄露玄机
据国外媒体Android Authority报道,谷歌正持续为其 AI 数字助理 Gemini 增加新功能。 继深度情境理解、文件处理优化以及跨应用链接等功能后,Google 应用程序中的代码表明 Gemini 很快就能生成视频。 Google 应用 v16.6.23版本代码中暗示了这一新功能。
2/19/2025 9:55:00 AM
AI在线
港大字节最新视频生成模型刷屏!网友直接RIP市场营销,Sora也不香了
刚刚,港大字节联手发布最新视频生成模型,让歪果网友直呼疯狂。 有人甚至直接RIP市场营销、TikTok用户和YouTube创作者。 你敢信,下面这一幕不是来自欧巴电视剧,而是AI生成的!
2/11/2025 9:00:00 AM
量子位
Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步
针对视频生成中的运动一致性难题,Meta GenAI 团队提出了一个全新框架 VideoJAM。VideoJAM 基于主流的 DiT 路线,但和 Sora 等纯 DiT 模型相比,动态效果直接拉满。
2/10/2025 12:04:23 PM
汪淼
可灵视频生成可控性为什么这么好?快手又公开了四篇研究
可灵,视频生成领域的佼佼者,近来动作不断。 继发布可灵 1.6 后,又公开了多项研究揭示视频生成的洞察与前沿探索 ——《快手可灵凭什么频繁刷屏? 揭秘背后三项重要研究》。
1/22/2025 6:21:00 PM
机器之心
快手可灵凭什么频繁刷屏?揭秘背后三项重要研究
“可灵(KLING)”,近半年来频繁亮相于国内外各大科技媒体,已然成为科技感与创意的代名词,它代表了快手 AI 团队在视频生成领域的前沿探索。 作为全球首个可公开体验的真实影像级视频生成大模型,可灵于 2024 年 6 月 6 日正式发布并上线。 在短短半年多的时间里,可灵已完成了数十次功能与效果的升级迭代,始终稳居全球视频生成领域的第一梯队,持续引领着行业效果的提升。
1/15/2025 10:57:00 AM
机器之心
Open-Sora:让所有人都能轻松制作高效视频,可生成16秒720P视频,模型代码全开源!
Open-Sora是一项致力于高效制作高质量视频的计划。 目的是让所有人都能使用模型、工具和所有细节。 通过采用开源原则,Open-Sora 不仅使高级视频生成技术的使用变得民主化,而且还提供了一个简化且用户友好的平台,简化了视频生成的复杂性。
1/10/2025 9:40:00 AM
AIGC Studio
MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。
本文经AIGC Studio公众号授权转载,转载请联系出处。 MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。 使用 MinT 生成时间控制的多事件视频。
1/8/2025 8:48:57 AM
AIGC Studio
潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025
奥特曼说,Sora代表了视频生成大模型的GPT-1时刻。 从开年到现在,国内外、初创独角兽到互联网大厂,都纷纷投入视频生成领域,带来一个个新鲜模型的同时,视频、影视行业也随之发生巨变。 不可否认,当下的视频生成模型还遇到诸多问题,比如对空间、对物理规律的理解,我们都期待着视频生成的GPT-3.5/4时刻到来。
1/2/2025 9:14:51 AM
量子位
北航&清华联合发力!Stag-1:视频生成模型实现超逼真的4D驾驶场景算法!
写在前面&笔者的个人理解近年来,随着自动驾驶在感知、预测和规划方面取得的重大进步,端到端算法网络也取得了重大进展。 随着现如今这些技术的飞速进步,自动驾驶汽车的全面测试和验证也变得越来越重要。 然而,真实世界的车辆测试仍然耗时、费用昂贵,并且场景的覆盖范围也非常有限。
12/19/2024 10:20:53 AM
自动驾驶之心
秒变大师!5步带你轻松制作AI视频
在当今的设计领域,AI 技术已经不再是一个新鲜词汇,特别是在视频创作的环节中,AI 的创新玩法和应用场景正让整个行业焕发出前所未有的活力。 从自动化剪辑到智能生成视频内容,AI 的加持正在改变设计师们的创作模式。 那么,作为设计师,我们如何通过 AI 视频的"新玩法"来提升创意和效率?
12/19/2024 12:35:03 AM
58UXD 团队
OpenAI被偷家,谷歌Veo 2反超Sora
视频生成领先 OpenAI 了? 今天是个好日子,至少谷歌这么想。 几个小时前,该公司一键三连,一口气发布了两款视觉生成模型和一个工具:Veo 2:视频生成模型,可使用文本或图像 prompt 生成高真实感、高质量的视频;Imagen 3:文生图模型,可更忠实地遵从提示词,实现更加丰富的细节和纹理渲染;Whisk:图生图工具,基于 Imagen 3 与 Gemini 的视觉理解和描述能力打造,能让用户更加方便地调整图像的场景、风格和物体。
12/17/2024 8:49:00 PM
机器之心
资讯热榜
6秒视频10秒生成!全新AI视频神器 Grok Imagine 深度体验+元提示词分享
OpenAI 为 ChatGPT 推出智能记忆清理功能,Plus 用户率先体验
大的来了:谷歌Gemini 3.0 Pro单次生成网页版操作系统,Win、Mac、Linux一网打尽
「性价比王者」Claude Haiku 4.5来了,速度更快,成本仅为Sonnet 4的1/3
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
OpenAI官宣自研首颗芯片,AI界「M1时刻」九个月杀到!联手博通三年10GW
刚刚,OpenAI官宣自研造芯,联手博通开发10吉瓦规模的AI加速器
OpenAI与博通联手打造10GW定制AI加速器
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
LLM
代码
算法
芯片
Stable Diffusion
苹果
腾讯
AI for Science
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
大语言模型
Sora
工具
具身智能
GPU
RAG
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
场景
视频生成
深度学习
架构
DeepMind
视觉
预测
伟达
Transformer
编程
AI模型
神器推荐
亚马逊
MCP