多模态模型
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
多模态模型学会“按需搜索”! 字节&NTU最新研究,优化多模态模型搜索策略——. 通过搭建网络搜索工具、构建多模态搜索数据集以及涉及简单有效的奖励机制,首次尝试基于端到端强化学习的多模态模型自主搜索训练。
7/9/2025 1:36:01 PM
西风
约翰斯・霍普金斯大学研发新 AI 模型,可更准确预测心源性猝死风险
美国约翰斯·霍普金斯大学开发出一款多模态人工智能模型,在识别突发性心脏骤停高风险人群方面,明显优于现行的临床指南。这一研究结果已在最新一期的《自然-心血管研究》杂志上发表。
7/5/2025 3:31:05 PM
清源
蚂蚁集团和inclusionAI联合推Ming-Omni:首个开源版多模态GPT-4o
近日,Inclusion AI 与 蚂蚁集团联合推出了一款名为 “Ming-Omni” 的先进多模态模型,标志着智能技术的新突破。 Ming-Omni 能够处理图像、文本、音频及视频,为多种应用提供强大支持,其功能不仅涵盖语音和图像生成,还具备多模态输入的融合处理能力。 ** 全面的多模态处理能力 **Ming-Omni 的设计中采用了专用编码器来提取不同模态的标记(tokens),这些标记经过 “Ling” 模块(即混合专家架构,MoE)进行处理,后者配备了新提议的模态特定路由器。
6/16/2025 1:01:53 PM
AI在线
小米多模态大模型Xiaomi MiMo-VL开源
近日,小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒,在多个领域展现出了强大的实力。 该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B,在GUI Grounding任务上的表现更是可与专用模型相媲美,为Agent时代的到来做好了准备。 MiMo-VL-7B在多模态推理任务上成绩斐然,尽管参数规模仅为7B,却在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)中大幅领先参数规模10倍大的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,同时也超越了闭源模型GPT-4o。
5/30/2025 10:01:14 AM
AI在线
可能是目前最好的3B多模态模型,有望做“AI作业帮”
作者 | 徐浚哲、尹宇阳我们团队近期开源多模态模型VLR1-3B的预览版(preview),欢迎大家尝试:“小”模型,使用了强化学习训练方式,增强了推理性能。 达到了同级别模型中推理能力第一(SOTA)。 主要是数学相关的测试,在MathVista和MathVision这两个权威AI数学榜单的官网上,VLR1-3B 这“小”模型不仅都在榜,而且比很多商业闭源大模型(如Gemini1.5和GPT-4V)表现都要强,甚至在MathVista的评测中领先GPT-4o~同时对比了多个banchMark结果,Average第一~ModelAverageMathVistaMathVisionMathVerseDynaMathWeMathLogicVistaQwen2-VL-2B20.548.016.117.53.810.826.6InternVL2.5-2B21.251.114.022.34.48.027.3InternVL3-2B29.157.620.224.514.822.940.3Qwen2.5-VL-3B31.861.221.931.213.222.940.3VLM-R1-3B-Math-030533.462.721.932.213.030.040.5Taichu-VLR-3B33.664.923.132.112.630.438.7VLAA-Thinker-Qwen2.5VL-3B35.461.024.436.418.233.838.5TBAC-VLR1-3B-preview35.764.825.033.217.732.440.8正巧最近正愁帮邻居刚上初中的孩子批数学作业,被多项式计算和几何证明搞得焦头烂额的。
5/27/2025 8:30:00 AM
腾讯技术工程
GPT-4o图像生成功能现已集成至自定义GPTs
2025年4月26日 AIbase报道:OpenAI近日宣布,其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。 这一更新标志着用户创建的定制化AI助手能够直接生成和编辑图像,为内容创作、设计和教育等领域带来更多可能性。 无缝集成的图像生成体验GPT-4o的图像生成功能此前已于2025年3月25日起在ChatGPT和Sora平台向免费、Plus、Pro和Team用户逐步开放。
4/27/2025 9:00:21 AM
AI在线
字节跳动推出Vidi多模态模型,引领超长视频理解与编辑新潮流
字节跳动宣布推出全新多模态模型Vidi,专注于视频理解与编辑,首版核心能力为精准的时间检索功能。 据AIbase了解,Vidi能够处理视觉、音频和文本输入,支持长达一小时的超长视频分析,在时间检索任务上性能超越GPT-4o与Gemini等主流模型。 这一突破性技术已在AI社区引发热烈讨论,相关细节通过字节跳动官方渠道与GitHub公开。
4/23/2025 5:00:42 PM
AI在线
OpenAI发布两款多模态推理模型o4-mini、满血版o3
在今天凌晨1点的技术直播中,OpenAI正式推出其最新且最强大的多模态模型o4-mini和满血版o3。 这两款模型具备独特优势,不仅能同时处理文本、图像和音频,还可作为智能体自动调用网络搜索、图像生成、代码解析等工具,并且拥有深度思考模式,能在思维链中思考图像。 OpenAI公布的测试数据显示,o4-mini表现卓越。
4/17/2025 8:01:05 AM
AI在线
Moonshot AI开源轻量级MoE多模态模型Kimi-VL,2.8B参数媲美SOTA模型!
最近有点忙,没来得及更新,但一直保持着对前沿技术的紧密关注,不得不感叹当今技术日新月异。 多模态推理模型进展,现有的开源大型视觉语言模型在可扩展性、计算效率和高级推理能力方面显著落后于纯文本语言模型。 OpenAI的GPT-4o和Google的Gemini等模型能够无缝感知和解释视觉输入,但不开源,DeepSeek-R1等模型虽然采用了MoE架构,但在长上下文推理和多模态任务上仍有不足。
4/14/2025 12:30:00 AM
Goldma
阿里推出全新多模态模型 Qwen2.5-VL-32B:兼顾视觉语言与数学推理
在人工智能领域,阿里巴巴再次带来了重磅消息。 近日,阿里开源了最新的多模态模型 ——Qwen2.5-VL-32B-Instruct。 这款新模型是 Qwen2.5系列中的一员,其他版本包括3B、7B 和72B,而32B 版本在保持性能的同时,更加注重便捷的本地运行体验。
3/25/2025 10:03:00 AM
AI在线
阿里云魔搭首发上线阶跃星辰最新开源的两款多模态模型
全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会(GDC)上,阿里云魔搭社区重磅宣布,首发上线阶跃星辰最新开源的两款多模态模型,包括 全球参数量最大的开源视频生成模型 Step-Video-T2V,以及 业界首款产品级开源语音交互模型 Step-Audio。 这一消息瞬间引爆全球AI开源社区,再次彰显中国在人工智能领域的强劲创新实力。 作为中国最大的AI模型社区,阿里云魔搭社区此次发布的这两款重磅模型,无疑是近期全球多模态领域最受瞩目的开源成果。
2/21/2025 3:58:00 PM
AI在线
小而强!微软发布小型模型LLaVA-Rad,实现精准放射学报告生成
近日,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad,这是一种新型的小型多模态模型(SMM),旨在提升临床放射学报告的生成效率。 该模型的推出不仅标志着医学图像处理技术的一大进步,也为放射学的临床应用带来了更多的可能性。 在生物医学领域,基于大规模基础模型的研究已经展现出良好的应用前景,尤其是在多模态生成 AI 的发展下,可以同时处理文本与图像,从而支持视觉问答和放射学报告生成等任务。
2/10/2025 9:46:00 AM
AI在线
多智能体架构Insight-V来了!突破长链视觉推理瓶颈
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/13/2024 1:26:00 PM
机器之心
清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 | NeurIPS'24
计算、存储消耗高,机器人使用多模态模型的障碍被解决了! 来自清华大学的研究者们设计了DeeR-VLA框架,一种适用于VLA的“动态推理”框架,能将LLM部分的相关计算、内存开销平均降低4-6倍。 (VLA:视觉-语言-动作模型,代表一类用于处理多模态输入的模型)简单来说,DeeR-VLA就像人的决策系统:简单任务快速思考,复杂任务仔细思考。
12/2/2024 7:10:00 AM
徐图智能徐东:文生视频创业,要用坚定信仰对抗 fomo 的大厂
在 GPT-4 发布一年多后,OpenAI 推出 GPT-4o,是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。 GPT-4o 的出现所传递的信息是:在底层模型并没有变得更智能的情况下,能够跨多种模态进行推理的模型必然是更加通用的。 因为其不仅具备多种功能,还能以不同模态传递知识。
6/20/2024 3:28:00 PM
王悦
- 1
资讯热榜
阿里推出 AI 医学助手 App“氢离子”:收录千万级核心期刊文献,还可查疾病、找药品
Lovart 实战深度测评!仅需4小时帮你完成一整套品牌全案设计!
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
Meta 被指控盗用 2000 余部成人影片训练 AI,或面临 3.5 亿美元天价赔偿
刷新无监督异常检测上限!首提「匹配代价滤波for异常检测」范式 | ICML'25
OpenAI 董事会主席:如果你想快速烧掉百万美元,就开发自己的 AI 模型吧
AI和云基础设施初创企业E2B如何成为88%的财富100强企业的必备选择
阶跃星辰发布新一代基础大模型 Step 3,华为昇腾芯片已首先实现搭载
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用