多模态大语言模型
昆仑万维开源SkyReels-V2:无限时长电影生成模型
昆仑万维 SkyReels 团队正式发布并开源了 SkyReels-V2,这是全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型。 该模型通过结合多模态大语言模型(MLLM)、多阶段预训练、强化学习和扩散强迫框架来实现协同优化,标志着视频生成技术迈入了一个新的阶段。 SkyReels-V2的发布旨在解决现有视频生成技术在提示词遵循、视觉质量、运动动态和视频时长协调上的重大挑战。
4/21/2025 12:00:58 PM
AI在线
微软推出 GeoMap-Bench,助力地质图理解的智能化
在地质科学领域,地质图是理解地球表面及地下结构的关键工具。 然而,解读这些复杂的图表需要专业知识和丰富的经验。 为了提升这一领域的智能化水平,微软亚洲研究院近日推出了一个新基准集 GeoMap-Bench,专门用于评估多模态大语言模型(MLLMs)在地质图理解方面的表现。
3/24/2025 3:58:00 PM
AI在线
阿里国际开源Ovis2系列多模态大语言模型 共有六个版本
2025 年 2 月 21 日,阿里巴巴国际化团队宣布其新型多模态大语言模型Ovis2 系列正式开源。 Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。 与前序1.
2/21/2025 5:23:00 PM
AI在线
让大模型理解手机屏幕,苹果多模态Ferret-UI用自然语言操控手机
此次,苹果提出的多模态大语言模型(MLLM) Ferret-UI ,专门针对移动用户界面(UI)屏幕的理解进行了优化,其具备引用、定位和推理能力。移动应用已经成为我们日常生活的一大重要组成部分。使用移动应用时,我们通常是用眼睛看,用手执行对应操作。如果能将这个感知和交互过程自动化,用户也许能获得更加轻松的使用体验。此外,这还能助益手机辅助功能、多步 UI 导航、应用测试、可用性研究等。为了在用户界面内实现感知和交互的无缝自动化,就需要一个复杂的系统,其需要具备一系列关键能力。这样一个系统不仅要能完全理解屏幕内容,还
5/20/2024 2:58:00 PM
机器之心
能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了
2023 年我们正见证着多模态大模型的跨越式发展,多模态大语言模型(MLLM)已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。以 Llama 2,Mixtral 为代表的大语言模型(LLM),以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。然而,它们的能力缺乏细致且偏应用级的评测,可信度和因果推理能力的对比也尚存空白。近日,上海人工智能实验室的学者们与北京航空航天大学、复旦大学、悉尼大学和香港中文大学(深圳)等院校合作发布 308 页详细报告,对 G
3/1/2024 2:46:00 PM
机器之心
- 1
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊