多模态大语言模型
昆仑万维开源SkyReels-V2:无限时长电影生成模型
昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2,这是全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型。 该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化,标志着视频生成技术迈入了一个新的阶段。 SkyReels-V2的发布旨在解决现有视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的重大挑战。
4/21/2025 12:00:58 PM
AI在线
微软推出 GeoMap-Bench,助力地质图理解的智能化
在地质科学领域,地质图是理解地球表面及地下结构的关键工具。 然而,解读这些复杂的图表需要专业知识和丰富的经验。 为了提升这一领域的智能化水平,微软亚洲研究院近日推出了一个新基准集 GeoMap-Bench,专门用于评估多模态大语言模型(MLLMs)在地质图理解方面的表现。
3/24/2025 3:58:00 PM
AI在线
阿里国际开源Ovis2系列多模态大语言模型 共有六个版本
2025 年 2 月 21 日,阿里巴巴国际化团队宣布其新型多模态大语言模型Ovis2 系列正式开源。 Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。 与前序1.
2/21/2025 5:23:00 PM
AI在线
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机
此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时,我们通常是用眼睛看,用手执行对应操作。如果能将这个感知和交互过程自动化,用户也许能获得更加轻松的使用体验。此外,这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。为了在用户界面内实现感知和交互的无缝自动化,就需要一个复杂的系统,其需要具备一系列关键能力。这样一个系统不仅要能完全理解屏幕内容,还
5/20/2024 2:58:00 PM
机器之心
能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了
2023 年我们正见证着多模态大模型的跨越式发展,多模态大语言模型(MLLM)已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。以 Llama 2,Mixtral 为代表的大语言模型(LLM),以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而,它们的能力缺乏细致且偏应用级的评测,可信度和因果推理能力的对比也尚存空白。近日,上海人工智能实验室的学者们与北京航空航天大学、复旦大学、悉尼大学和香港中文大学(深圳)等院校合作发布 308 页详细报告,对 G
3/1/2024 2:46:00 PM
机器之心
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind