多模态
多模态推理模型(LMRM):从感知到推理的演变
大家好,我是肆〇柒。 当下,人工智能正以前所未有的速度改变着我们的生活与工作方式。 其中,推理作为人工智能的核心能力之一,赋予了智能体在复杂环境中做出决策、得出结论以及进行知识泛化的能力。
6/10/2025 3:30:00 AM
肆零柒
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3%
多模态时代应如何评估模型的视觉输出能力? 来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V:一款针对大模型的视觉推理能力的新型基准测试。 过去的评估基准主要集中于评估多模态输入和纯文本推理过程。
5/28/2025 11:43:48 AM
多模态混合检索与多智能体RAG的破局之道
AI的感知困境:一只眼睛的世界我们习惯了AI能够处理文字、分析数据,但在处理复杂信息时,传统AI面临着三大感知困境:文字与图像割裂好比戴着眼罩工作的设计师,AI只能读懂文字,却看不懂图表中的趋势线、饼图中的占比关系。 OCR技术让AI能提取图像中的文字,却无法理解一张财务图表所传达的"销售额正在快速增长"这类视觉信息。 这就像让一个人只通过摸索来理解一幅画,注定失之偏颇。
5/26/2025 9:49:59 AM
大数据AI智能圈
字节发布14B参数多模态神器BAGEL,碾压Qwen2.5-VL,图像生成媲美SD3
字节跳动Seed团队在Hugging Face平台重磅发布BAGEL,一款基于混合专家(MoE)架构的开源多模态基础模型,拥有14亿总参数和7亿活跃参数。 BAGEL在数万亿token的交错多模态数据集上预训练,性能超越Qwen2.5-VL和InternVL-2.5,图像生成质量媲美SD3,并支持复杂推理任务如自由图像编辑、未来帧预测和3D生成,引发全球AI社区热议。 AIbase综合最新社交媒体动态,深入解析BAGEL的技术亮点及其对多模态AI领域的革命性影响。
5/22/2025 6:00:45 PM
AI在线
字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破
字节跳动 发布了一款名为 BAGEL 的开源多模态基础模型,拥有70亿个活跃参数,整体参数量达到140亿。 BAGEL 在标准多模态理解基准测试中表现出色,超越了当前一些顶级开源视觉语言模型,如 Qwen2.5-VL 和 InternVL-2.5。 此外,在文本到图像的生成质量上,BAGEL 的表现也与强大的专业生成器 SD3相媲美。
5/21/2025 12:01:15 PM
AI在线
谷歌Gemma 3n发布!可在手机上流畅跑多模态AI,音频+图像+文本全能
谷歌在I/O2025大会上正式揭晓Gemma3n,一款专为低资源设备设计的多模态AI模型,仅需2GB RAM即可在手机、平板和笔记本电脑上流畅运行。 Gemma3n继承了Gemini Nano的架构,新增音频理解功能,支持文本、图像、视频和音频的实时处理,且无需云端连接,彻底颠覆了移动端AI体验。 AIbase综合最新社交媒体动态,深入解析Gemma3n的技术亮点及其对AI生态的影响。
5/21/2025 10:01:51 AM
AI在线
多模态检索大升级!智源三大SOTA模型,代码、图文理解能力拉满
检索增强技术在代码及多模态场景中的发挥着重要作用,而向量模型是检索增强体系中的重要组成部分。 针对这一需求,近日,智源研究院联合多所高校研发了三款向量模型,包括代码向量模型BGE-Code-v1,多模态向量模型BGE-VL-v1.5以及视觉化文档向量模型BGE-VL-Screenshot。 这些模型取得了代码及多模态检索的最佳效果,并以较大优势登顶CoIR、Code-RAG、MMEB、MVRB等领域内主要测试基准。
5/20/2025 1:02:23 PM
新智元
Salesforce BLIP3-o重磅登陆Hugging Face!全开源多模态模型,图像理解与生成一统江湖!
Salesforce AI Research在Hugging Face平台正式发布BLIP3-o应用,这款全开源的统一多模态模型家族以其卓越的图像理解与生成能力引发业界热议。 BLIP3-o通过创新的扩散变换器架构,结合语义丰富的CLIP图像特征,不仅提升了训练效率,还显著优化了生成效果。 AIbase综合最新社交媒体动态,深入解析BLIP3-o的技术突破及其对AI生态的影响。
5/20/2025 10:01:05 AM
AI在线
深度解析大模型技术演进脉络:RAG、Agent与多模态的实战经验与未来图景
作者 | jaymie大模型作为产业变革的核心引擎。 通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。 三者协同演进,不仅攻克了数据时效性、专业适配等核心挑战,更推动行业从效率革新迈向业务重构。
5/20/2025 8:30:00 AM
腾讯技术工程
Ollama推出全新多模态AI引擎,推理性能显著提升
前不久,Ollama 宣布推出一款全新的多模态 AI 引擎,这款引擎的研发是独立于原有的 llama.cpp 框架进行的,标志着公司在人工智能领域迈出了重要一步。 这一引擎是基于 Golang 编程语言开发,旨在大幅提高本地推理的精度,同时增强大型图像处理的能力。 新引擎的亮点在于其引入了图像处理元数据、KVCache 优化及图像缓存功能。
5/19/2025 10:01:06 AM
AI在线
谷歌Gemma AI模型下载量突破1.5亿,引多模态功能热议
近日,谷歌推出的 Gemma 人工智能模型集下载量已突破1.5亿次,展示出其在 AI 领域的强大吸引力。 Gemma 的多模态功能和支持超过100种语言,使其在众多竞争对手中脱颖而出,吸引了全球开发者的关注。 Gemma 的成功不仅体现在下载量上,其基于 Gemma 模型衍生出的版本也已超过7万个。
5/14/2025 4:00:52 PM
AI在线
仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA
在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。 该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。 Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。
5/14/2025 3:00:52 PM
AI在线
字节跳动发布新一代多模态大模型,挑战谷歌 Gemini 2.5 Pro
在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。 该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。 与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。
5/14/2025 12:00:52 PM
AI在线
腾讯混元携手科研机构推出首个多模态统一CoT奖励模型并开源
近日,腾讯混元在与上海 AI Lab、复旦大学及上海创智学院的合作下,正式推出了全新研究成果 —— 统一多模态奖励模型(Unified Reward-Think),并宣布全面开源。 这一创新模型不仅具备了强大的长链推理能力,还首次实现了在视觉任务中 “思考” 的能力,使得奖励模型能够更准确地评估复杂的视觉生成与理解任务。 统一多模态奖励模型的推出,标志着奖励模型在各类视觉任务中的应用达到了新的高度。
5/14/2025 10:01:03 AM
AI在线
阿里MNN神更新!移动端开源多模态AI支持Qwen-2.5,文本图像语音全搞定!
阿里巴巴开源项目MNN(Mobile Neural Network)发布了其移动端多模态大模型应用MnnLlmApp的最新版本,新增对Qwen-2.5-Omni-3B和7B模型的支持。 这款完全开源、运行于移动端本地的大模型应用,支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务,以其高效性能和低资源占用引发开发者广泛关注。 AIbase观察到,MNN的此次更新进一步推动了多模态AI在移动端的普及。
5/13/2025 10:01:07 AM
AI在线
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型
苹果正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。 FastVLM通过创新的FastViTHD视觉编码器,实现了高达85倍的编码速度提升,为实时多模态AI应用铺平了道路。 技术核心:FastViTHD编码器与高效设计FastVLM的核心在于其全新设计的FastViTHD混合视觉编码器,针对高分辨率图像处理进行了深度优化。
5/12/2025 3:00:52 PM
AI在线
高一致性、强控制力,腾讯发布多模态视频生成利器 HunyuanCustom
腾讯近日正式开源其全新多模态定制视频生成框架——HunyuanCustom,标志着AI视频创作进入更高自由度与精准控制的全新阶段。 该框架基于腾讯自研的 HunyuanVideo 打造,主打**“主体一致性”与“多模态灵活输入”**,致力于实现视频内容与输入素材高度匹配的个性化生成。 HunyuanCustom 的核心优势在于其强大的多模态输入能力:支持用户通过文本描述、单图或多图图像、参考音频甚至已有的视频片段作为输入,系统可综合这些信息生成定制化视频。
5/12/2025 10:01:12 AM
AI在线
商汤科技迈向多模态大模型的新纪元
在过去的两年里,人工智能领域的关注点逐渐转向了大模型的技术发展,而商汤科技作为一家成立不到十年的公司,凭借其在计算机视觉领域的技术积累,正迅速转型,迎接这一浪潮。 尽管在2023年之前,商汤主要聚焦于视觉模型,但随着 DeepSeek R1的发布,市场的重心开始向自然语言处理和大规模参数模型倾斜,商汤的策略也随之调整。 商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”,展现了强大的综合能力,与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。
5/9/2025 4:00:51 PM
AI在线
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊