多模态
Soul App实时人像视频生成研究成果获国际学术顶会CVPR2025录用
近期,IEEE国际计算机视觉与模式识别会议( Conference on Computer Vision and Pattern Recognition)CVPR 2025公布论文录用结果,社交平台Soul App技术论文《Teller: Real-Time Streaming Audio-Driven Portrait Animation with Autoregressive Motion Generation》(《基于自回归动作生成的实时流式音频驱动人像动画系统》)被接收。 Soul App团队在论文中提出了一个新的面向实时音频驱动人像动画(即Talking Head)的自回归框架,解决了视频画面生成耗时长的行业挑战外,还实现了说话时头部生成以及人体各部位运动的自然性和逼真性。 此次论文的入选,也证明了Soul App在推动多模态能力构建特别是视觉层面能力突破上取得了阶段性成果。
3/21/2025 5:14:00 PM
新闻助手
智源开源多模态向量模型BGE-VL,助力多模态检索!
智源研究院开源了多模态向量模型BGE-VL,助力主要多模态检索任务达到SOTA。 论文地址:: : :现有的多模态检索模型大多基于预训练的视觉-语言模型,这些模型主要通过文本-图像匹配任务进行预训练,对于其他常见的多模态任务(如组合图像检索和多模态文档检索)表现不足。 为了增强模型的多任务能力,研究者们开始采用指令微调的方法,但高质量的指令微调数据稀缺且难以大规模获取。
3/19/2025 9:30:00 AM
Glodma
谷歌大招网友玩疯了!Gemini原生图像输出抢先推出,OpenAI一年领先优势归零
谷歌推出Gemini原生图像生成,测试版瞬间引爆网络。 如果你迟到了,但没有好的借口,甚至还没有出家门——只需要一张自拍,然后让AI把你P到地铁故障现场。 图片也可以凭空生成一个人物形象,把它放到原神游戏画面中(不用上传游戏截图),让角色往前走两步,再把视角往左移,走近一个建筑,开始爬墙。
3/14/2025 12:14:38 PM
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器人操作全能
现有的大语言模型、图像生成模型等都只是在某几个模态数据上进行操作,无法像人类一样与物理世界产生交互。 视觉-语言-行动(VLA,Vision-Language-Action)模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体,能够在物理和数字环境中生成有意义的「具身行动」(embodied actions)以完成特定任务。 图片由于二维数字世界和三维物理世界之间存在差异,现有的VLA模型通常对任务进行简化,导致多模态理解能力偏弱,在跨任务和跨领域的泛化能力上不够通用。
3/10/2025 1:31:28 PM
多模态检索新突破!智源开源多模态向量模型BGE-VL
2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。 BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果,显著提升了多模态检索的性能。 BGE-VL的开发基于大规模合成数据集MegaPairs,该数据集通过结合多模态表征模型、多模态大模型和大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。
3/6/2025 2:46:00 PM
AI在线
华科字节推出 Liquid:重新定义多模态模型的生成与理解
近年来,大语言模型(LLM)在人工智能领域取得了显著进展,尤其是在多模态融合方面。 华中科技大学、字节跳动与香港大学的联合团队最近提出了一种新型的多模态生成框架 ——Liquid,旨在解决当前主流多模态模型在视觉处理上的局限性。 传统的多模态大模型依赖复杂的外部视觉模块,这不仅增加了系统的复杂性,还限制了其扩展性。
3/4/2025 9:41:00 AM
AI在线
微软发布 Phi-4 多模态与迷你模型,语音视觉文本处理再升级
近日,微软进一步扩展了 Phi-4家族,推出了两款新模型:Phi-4多模态(Phi-4-multimodal)和 Phi-4迷你(Phi-4-mini),这两款模型的亮相,无疑将为各类 AI 应用提供更加强大的处理能力。 Phi-4多模态模型是微软首款集成语音、视觉和文本处理的统一架构模型,拥有5600万参数。 这款模型在多项基准测试中表现优异,超越了目前市场上的许多竞争对手,例如谷歌的 Gemini2.0系列。
2/27/2025 9:38:00 AM
AI在线
微软 Phi-4 多模态及迷你模型上线,语音视觉文本全能
微软推出Phi-4多模态和Phi-4迷你模型,多模态模型集成语音、视觉和文本处理,表现卓越;迷你模型专注于文本任务,性能优异。两款模型已在多个平台上线,为AI应用带来强大处理能力。#微软#AI技术#多模态模型
2/27/2025 9:04:02 AM
远洋
商汤小浣熊家族全面升级:多模态融合 10秒钟即可复刻网页
2月25日,商汤科技在2025全球开发者先锋大会上宣布其AI生产力工具——商汤小浣熊家族全面升级,进一步强化多模态能力,推动AI应用加速落地,向AI Agent演进。 此次升级不仅提升了工具的性能,还让AI回归其最朴素的使命——成为强有力的生产力工具。 商汤小浣熊家族的升级涵盖了多个方面。
2/25/2025 11:15:00 AM
AI在线
一文读懂多模态 embeddings
传统上,AI研究被划分为不同的领域:自然语言处理(NLP)、计算机视觉(CV)、机器人学、人机交互(HCI)等。 然而,无数实际任务需要整合这些不同的研究领域,例如自动驾驶汽车(CV 机器人学)、AI代理(NLP CV HCI)、个性化学习(NLP HCI)等。 尽管这些领域旨在解决不同的问题并处理不同的数据类型,但它们都共享一个基本过程。
2/10/2025 7:10:00 AM
二旺
阶跃星辰再拿多模态榜首,全方位升级发布六款模型
作者|朱可轩编辑|陈彩娴春节将近,各家厂商似乎都在争取休假前的最后一博,此时步入 2025 年也才半月有余,大模型玩家们已然卷上了新高度。 先是 OpenAI 打响了开年第一“枪”,ChatGPT 上线了新功能“Tasks”,主打提升了任务执行能力,之后国内一众厂商也先后发布了自家成果——月之暗面发布了全新的多模态图片理解模型 moonshot-v1-vision-preview;MiniMax 开源了基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01;生数科技上新了视频大模型 Vidu 2.0;接着,智谱 AI 推出了端到端多模态大模型 GLM-Realtime;面壁智能带来了端侧多模态模型 MiniCPM-o 2.6;DeepSeek 开源了 DeepSeek-R1 推理模型......刚开年,模型更新便多到让人眼花缭乱,当中也不难发现,多模态、推理和端侧依旧是今年各家寻求突破的重点方向。 不得不提的是,在这一各厂商密集上新的“黄金节点”,AI 科技评论关注到,阶跃星辰一周内竟一口气批量更新了 6 款模型,全方位涵盖语言、语音、推理、图片理解、视频生成等多类别。
1/22/2025 5:02:00 PM
朱可轩
过年了!Kimi深夜炸场:满血版多模态o1级推理模型!OpenAI外全球首次!Jim Fan:同天两款国产o1绝对不是巧合!
编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)昨晚十点,Kimi弹了条推送。 大晚上的,他们就这么波澜不惊地发了一个SOTA 模型出来! 就是这个 k1.5 多模态思考模型,性能实现有多逆天呢:在 short-CoT 模式下, Kimi k1.5 的多项能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%;在 long-CoT 模式下,Kimi k1.5 的数学、代码、多模态推理能力,也达到长思考 SOTA 模型 OpenAI o1 满血版的水平!
1/21/2025 1:15:15 PM
伊风
Kimi 多模态图片理解模型 API 发布,1M tokens 定价 12 元起
Vision 模型具备图像识别能力,能够识别出图像中的复杂细节和细微的差别,无论是食物还是动物,能够区分出相似但又不相同的对象。
1/15/2025 12:24:29 PM
汪淼
【多模态&LLM】POINTS多模态大模型浅谈
NaViT概述NaViT利用序列打包训练,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、目标检测和语义分割,并在鲁棒性和公平性基准测试中取得了改进的结果。 图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结:数据预处理:如上图展示了NaViT在处理任意分辨率的方法,将不同分辨率的图像分割成补丁(patches),然后应用令牌丢弃(token drop)操作,类似于dropout,以加速训练过程。 预处理后,将三张图像生成的补丁展平为一个序列,不足的部分用填充(padding)补充。
1/8/2025 8:21:16 AM
余俊晖
智象未来多模态大模型3.0全球首发,创始人兼CEO梅涛演讲实录来了
2024年12月28日,智象未来科技有限公司在安徽省人工智能产业先导区启动仪式中,宣布智象多模态生成大模型3.0与智象多模态理解大模型1.0同时发布。 上海电影集团、中国移动咪咕音乐、科大讯飞等企业参加。 加拿大工程院外籍院士、智象未来创始人兼CEO梅涛进行现场演讲。
1/2/2025 4:20:00 PM
新闻助手
网页多模态建模思考
1.综述网页本质上是一种超文本,一般由超文本标记语言来定义(例如HTML)。 HTML是一种基础技术,常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面 。 网页浏览器内核通过解释HTML文件,通过视觉引擎将其渲染成可视化网页。
12/26/2024 1:20:53 AM
百度Geek说
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
李飞飞谢赛宁再发新成果:直接把o1式思考拉至下一个level——多模态大语言模型的空间思维! 这项研究系统评估了多模态大模型的视觉空间智能,结果发现:当前,即使是最先进的多模态大模型,在空间认知方面与人类相比仍有显著差距,测试中约71%的错误都源于空间推理方面的缺陷,即空间推理能力是当前主要瓶颈。 图片更为有趣的是,在这种情况下,思维链、思维树等常用的语言提示技术直接失灵了——不仅没有提升模型在空间任务上的表现,反而会使性能下降。
12/23/2024 12:37:34 PM
为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘
多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办? 像文生图那样有ControlNet即可解决。 这就是由360人工智能研究院提出的IAA的核心思路。
12/17/2024 12:08:21 PM
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
AGI
DeepMind