多模态大语言模型

昆仑万维开源SkyReels-V2：无限时长电影生成模型

昆仑万维开源SkyReels-V2：无限时长电影生成模型

昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2，这是全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型。该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化，标志着视频生成技术迈入了一个新的阶段。 SkyReels-V2的发布旨在解决现有视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的重大挑战。

4/21/2025 12:00:58 PM AI在线

微软推出 GeoMap-Bench，助力地质图理解的智能化

微软推出 GeoMap-Bench，助力地质图理解的智能化

在地质科学领域，地质图是理解地球表面及地下结构的关键工具。然而，解读这些复杂的图表需要专业知识和丰富的经验。为了提升这一领域的智能化水平，微软亚洲研究院近日推出了一个新基准集 GeoMap-Bench，专门用于评估多模态大语言模型（MLLMs）在地质图理解方面的表现。

3/24/2025 3:58:00 PM AI在线

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

2025 年 2 月 21 日，阿里巴巴国际化团队宣布其新型多模态大语言模型Ovis2 系列正式开源。 Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1.

2/21/2025 5:23:00 PM AI在线

让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机

让大模型理解手机屏幕，苹果多模态Ferret-UI用自然语言操控手机

此次，苹果提出的多模态大语言模型（MLLM） Ferret-UI ，专门针对移动用户界面（UI）屏幕的理解进行了优化，其具备引用、定位和推理能力。移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时，我们通常是用眼睛看，用手执行对应操作。如果能将这个感知和交互过程自动化，用户也许能获得更加轻松的使用体验。此外，这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。为了在用户界面内实现感知和交互的无缝自动化，就需要一个复杂的系统，其需要具备一系列关键能力。这样一个系统不仅要能完全理解屏幕内容，还

5/20/2024 2:58:00 PM 机器之心

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而，它们的能力缺乏细致且偏应用级的评测，可信度和因果推理能力的对比也尚存空白。近日，上海人工智能实验室的学者们与北京航空航天大学、复旦大学、悉尼大学和香港中文大学（深圳）等院校合作发布 308 页详细报告，对 G

3/1/2024 2:46:00 PM 机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉