MLLMs
GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难
难度大升级的多任务长视频理解评测基准 MLVU 来了!由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢?最终排名第一的 GPT-4o 单选正确率还不足 65%。而且研究发现,大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明,提升上下文窗口,提升图像理解能力,以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开,具体细节下面一起看看吧~MLVU 的构建过程当前流行的 Video Benchmark 主要针对短视频设计,大部分视频的长度都在 1
6/22/2024 4:32:26 PM
清源
苹果介绍 Ferret-UI 多模态大语言模型:更充分理解手机屏幕内容
感谢苹果公司近日发布研究论文,展示了 Ferret-UI AI 系统,可以理解应用程序屏幕上的内容。以 ChatGPT 为代表的 AI 大语言模型(LLMs),其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容,多模态大语言模型(MLLMs)因此孕育而生。只是现阶段 MLLMs 还无法有效理解移动应用程序,这主要有以下几个原因:1. 手机屏幕的宽高比,和大多数训练图像使用的屏幕宽高比不同。2. MLLMs 需要识别出图标和按钮,但它们相对来说都比较小。因此苹果构想了名为 Ferre
4/10/2024 7:50:52 AM
故渊
- 1
资讯热榜
超多案例!让 Lovart 作图更好看更高效的提示词在这里了!
OpenMemory MCP发布!AI记忆本地共享,Claude、Cursor一键同步效率翻倍!
“逆天”研究!Cursor 与 Windsurf 背后的核心算法机制曝光!网友惊呼:Cursor代码总出Bug的原因找到了
Meta 发布巨型 AI 化学数据集 OMol25及通用模型 UMA
OpenAI CEO 奥尔特曼畅想未来:构建类似操作系统的 AI 产品
给你一个全能设计助手!首个专业设计Agent来了
Google DeepMind Launches AlphaEvolve: AI Breaks a 56-Year Record in Mathematics and Optimizes Its Own Training System
阿里巴巴开源视频生成与编辑模型通义万相 Wan2.1-VACE
标签云
人工智能
AI
OpenAI
AIGC
ChatGPT
模型
DeepSeek
AI绘画
数据
机器人
谷歌
大模型
Midjourney
用户
智能
开源
微软
学习
GPT
Meta
图像
AI创作
技术
Gemini
论文
马斯克
Stable Diffusion
算法
代码
芯片
生成式
蛋白质
英伟达
腾讯
开发者
神经网络
研究
Anthropic
3D
计算
Sora
机器学习
AI设计
AI for Science
苹果
GPU
AI视频
生成
场景
搜索
华为
百度
训练
人形机器人
预测
伟达
Claude
xAI
深度学习
Transformer
大语言模型
字节跳动
模态
智能体
具身智能
神器推荐
Copilot
文本
驾驶
视觉
LLaMA
应用
算力
安全
API
干货合集
视频生成
大型语言模型
Agent
工具