AI在线 AI在线

多模态

​仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA

在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。 该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。 Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。
5/14/2025 3:00:52 PM
AI在线

字节跳动发布新一代多模态大模型,挑战谷歌 Gemini 2.5 Pro

在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。 该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。 与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。
5/14/2025 12:00:52 PM
AI在线

腾讯混元携手科研机构推出首个多模态统一CoT奖励模型并开源

近日,腾讯混元在与上海 AI Lab、复旦大学及上海创智学院的合作下,正式推出了全新研究成果 —— 统一多模态奖励模型(Unified Reward-Think),并宣布全面开源。 这一创新模型不仅具备了强大的长链推理能力,还首次实现了在视觉任务中 “思考” 的能力,使得奖励模型能够更准确地评估复杂的视觉生成与理解任务。 统一多模态奖励模型的推出,标志着奖励模型在各类视觉任务中的应用达到了新的高度。
5/14/2025 10:01:03 AM
AI在线

阿里MNN神更新!移动端开源多模态AI支持Qwen-2.5,文本图像语音全搞定!

阿里巴巴开源项目MNN(Mobile Neural Network)发布了其移动端多模态大模型应用MnnLlmApp的最新版本,新增对Qwen-2.5-Omni-3B和7B模型的支持。 这款完全开源、运行于移动端本地的大模型应用,支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务,以其高效性能和低资源占用引发开发者广泛关注。 AIbase观察到,MNN的此次更新进一步推动了多模态AI在移动端的普及。
5/13/2025 10:01:07 AM
AI在线

苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型

苹果正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。 FastVLM通过创新的FastViTHD视觉编码器,实现了高达85倍的编码速度提升,为实时多模态AI应用铺平了道路。 技术核心:FastViTHD编码器与高效设计FastVLM的核心在于其全新设计的FastViTHD混合视觉编码器,针对高分辨率图像处理进行了深度优化。
5/12/2025 3:00:52 PM
AI在线

高一致性、强控制力,腾讯发布多模态视频生成利器 HunyuanCustom

腾讯近日正式开源其全新多模态定制视频生成框架——HunyuanCustom,标志着AI视频创作进入更高自由度与精准控制的全新阶段。 该框架基于腾讯自研的 HunyuanVideo 打造,主打**“主体一致性”与“多模态灵活输入”**,致力于实现视频内容与输入素材高度匹配的个性化生成。 HunyuanCustom 的核心优势在于其强大的多模态输入能力:支持用户通过文本描述、单图或多图图像、参考音频甚至已有的视频片段作为输入,系统可综合这些信息生成定制化视频。
5/12/2025 10:01:12 AM
AI在线

商汤科技迈向多模态大模型的新纪元

在过去的两年里,人工智能领域的关注点逐渐转向了大模型的技术发展,而商汤科技作为一家成立不到十年的公司,凭借其在计算机视觉领域的技术积累,正迅速转型,迎接这一浪潮。 尽管在2023年之前,商汤主要聚焦于视觉模型,但随着 DeepSeek R1的发布,市场的重心开始向自然语言处理和大规模参数模型倾斜,商汤的策略也随之调整。 商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”,展现了强大的综合能力,与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。
5/9/2025 4:00:51 PM
AI在线

国内大模型人才大战打响!大厂各出奇招,薪资不设上限、CTO亲自参与指导、无需实习经验

眼花缭乱了。 为争夺AI人才,大厂们齐齐放大招! 各种天才、顶尖人才计划简直看不过来。
5/9/2025 3:22:40 PM

一年狂发22个模型!阶跃星辰CEO姜大昕:AGI的秘密武器不是算力,而是让AI学会“自己教自己”!

在近期的媒体沟通会上,阶跃星辰的创始人兼 CEO 姜大昕分享了公司在多模态人工智能领域的最新进展以及未来的发展规划。 阶跃星辰成立于2023年,致力于开发通用人工智能(AGI),目前已发布22款自研模型,其中16款为多模态模型,这一成就使其在行业内被称为 “多模态卷王”。 姜大昕表示,公司将在未来几个月内推出一款新型推理模型 Step R1,并计划发布更先进的 Step 图片编辑模型。
5/8/2025 6:00:56 PM
AI在线

消息称通义视觉负责人薄列峰离职 或加入某大厂新组建多模态团队

据多方信源透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰(职级P10)已于2024年4月30日正式离职,并低调加盟某头部互联网公司,出任新设立的多模态模型部副总经理一职。 尽管该互联网公司具体名称尚未公开,坊间普遍猜测其去向可能是字节跳动或腾讯,但目前相关公司及本人均未作出回应,尚无法证实具体归属。 图源备注:图片由AI生成,图片授权服务商Midjourney此次人事变动引发业界关注的另一焦点在于“竞业限制”。
5/7/2025 3:00:27 PM
AI在线

Gemini 2.5 Pro再更新!编程能力屠榜!一句话、一张草图变应用

出品 | 51CTO技术栈(微信号:blog51cto)AI 编码模型的新王者登基了! 今天,Google 旗下的 DeepMind AI 研究部门正式发布了 Gemini 2.5 Pro “I/O” 版,这是今年 3 月推出的 Gemini 2.5 Pro 多模态大语言模型(LLM)的更新版本。 DeepMind CEO Demis Hassabis 在 X 上表示:“这是我们迄今为止打造的最佳编码模型!
5/7/2025 10:09:08 AM

从看见到理解,多模态大模型如何重塑行为检测

在人工智能技术快速迭代的今天,行为检测作为计算机视觉领域的重要分支,正迎来一场由多模态大模型引领的技术革命。 作为曾在CV算法公司工作的从业者,我深刻体会到传统计算机视觉方法在实际落地中的诸多痛点。 过去几年,许多行为检测、烟火检测等应用,往往因为高昂的训练成本和难以接受的误报率而被甲方叫停。
5/7/2025 1:00:00 AM
贝塔街的万事屋

通义实验室又一位大佬出走!传应用视觉团队负责人薄列峰已离职,将任职另一大厂多模态模型负责人!

出品 | 51CTO技术栈(微信号:blog51cto)北京时间5月6日,据知情人士透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰(title中不是阿里集团副总裁,所以职级应该为P10)已于4月30日低调离职。 有消息称他已经加入刚刚进行架构调整的某互联网大厂,担任多模态模型部副总经理,向公司副总裁汇报。 最早爆料该消息的公众号之一“互联网八卦小喇叭”发文表示:据可靠消息称:“薄老师于本月离职通义,即将进入某大厂担任多模态模型负责人”。
5/6/2025 4:03:20 PM

阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%

在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。 这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。 这一创新标志着阿里在多模态人工智能领域的进一步突破。
5/1/2025 10:00:51 AM
AI在线

图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」

全球AI大模型智能涌现,现在正在进入“多模态时间”。 一方面,全球业内各式各样的技术进展,都围绕多模态如火如荼展开。 另一方面,AI应用和落地的需求中,多模态也是最重要的能力。
4/28/2025 2:13:43 PM

Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝

基于视觉编码器的MLLM的基本构成:MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。 模态编码器(如:CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息(如图像或音频)压缩成更紧凑的表示。 预训练的LLM则负责理解和推理处理过的信号。
4/28/2025 2:03:00 AM
余俊晖

机械臂+大模型+多模态:打造人机协作具身智能体

在人工智能快速发展的浪潮中,多模态大模型已成为技术前沿,使AI能够同时理解文本、图像、音频等多种信息。 这一突破为具身智能体开辟了新天地。 最近我在github中就找到了一个这样好玩的项目vlm_arm,其将机械臂与多模态大模型结合,打造一个能听人话、看图像、执行精准操作的人机协作智能体系统。
4/25/2025 2:30:00 AM
贝塔街的万事屋

MinerU部署实践:从零开始搭建你的专属PDF解析服务

在多模态RAG(Retrieval-Augmented Generation)系统中,PDF文件的高效、安全解析与处理是实现高质量知识检索和生成的关键环节。 PDF文件通常包含丰富的文本、图像和表格信息,这些多模态数据的有效提取和整合对于提升RAG系统的性能至关重要。 然而,传统的PDF解析工具往往存在解析精度不足、无法处理复杂格式(如图像和表格)等问题,尤其是在涉及私密文档时,数据安全和隐私保护也是一大挑战。
4/23/2025 3:00:00 AM
Goldma