MLLMs

GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

难度大升级的多任务长视频理解评测基准 MLVU 来了！由智源联合北邮、北大和浙大等多所高校推出。究竟有多难呢？最终排名第一的 GPT-4o 单选正确率还不足 65%。而且研究发现，大部分模型的性能都会随着视频时长增加显著下降。研究进一步证明，提升上下文窗口，提升图像理解能力，以及使用更强大的 LLM Backbone 对长视频理解的性能具有显著的提升作用。目前相关论文及数据集已公开，具体细节下面一起看看吧~MLVU 的构建过程当前流行的 Video Benchmark 主要针对短视频设计，大部分视频的长度都在 1

6/22/2024 4:32:26 PM 清源

苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

苹果介绍 Ferret-UI 多模态大语言模型：更充分理解手机屏幕内容

感谢苹果公司近日发布研究论文，展示了 Ferret-UI AI 系统，可以理解应用程序屏幕上的内容。以 ChatGPT 为代表的 AI 大语言模型（LLMs），其训练材料通常是文本内容。为了能够让 AI 模型能够理解图像、视频和音频等非文本内容，多模态大语言模型（MLLMs）因此孕育而生。只是现阶段 MLLMs 还无法有效理解移动应用程序，这主要有以下几个原因：1. 手机屏幕的宽高比，和大多数训练图像使用的屏幕宽高比不同。2. MLLMs 需要识别出图标和按钮，但它们相对来说都比较小。因此苹果构想了名为 Ferre

4/10/2024 7:50:52 AM 故渊

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉