MovieLLM
用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成
在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的长视频时,却显得力不从心。因而,长视频的分析与理解,特别是对于长达数小时电影内容的理解,成为了当前的一个巨大挑战。究其原因,导致模型理解长视频困难的一个主要原因是缺乏高质量、多样化的长视频数据资源,而且收集和注释这些数据需要庞大的工作量。面对这样的难题, 腾讯和复旦大学的研究团队提出了 MovieLLM,一个创新性的 AI 生成框架。MovieLLM 采用了创新性的方法,不仅可以生成高质量、多样化的视频数
3/11/2024 11:49:00 AM
机器之心
- 1
资讯热榜
首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题
蚂蚁集团携手北医三院成立AI医疗联合实验室 打造专属AI就医助理
国产AI路由系统开源逆袭!仅用19%成本达到Gemini-2.5-Pro同等性能
OpenAI豪赌5000亿美元估值神话:60亿股权大甩卖背后,GPT-5却遭用户冷遇
心理学家警告:与 AI 聊天可能导致严重心理健康问题
摩根士丹利:AI 革命将为标准普尔 500 指数企业每年节省近 1 万亿美元
OpenAI加速推进GPT-6开发,奥尔特曼承诺打造"有记忆"的个性化AI助手
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
论文
Anthropic
代码
训练
算法
Stable Diffusion
AI新词
芯片
LLM
蛋白质
腾讯
开发者
苹果
生成式
Claude
Agent
AI for Science
神经网络
3D
机器学习
研究
生成
xAI
人形机器人
AI视频
计算
Sora
百度
GPU
AI设计
华为
工具
大语言模型
搜索
RAG
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
伟达
视频生成
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用