多模态
Ollama推出全新多模态AI引擎,推理性能显著提升
前不久,Ollama 宣布推出一款全新的多模态 AI 引擎,这款引擎的研发是独立于原有的 llama.cpp 框架进行的,标志着公司在人工智能领域迈出了重要一步。 这一引擎是基于 Golang 编程语言开发,旨在大幅提高本地推理的精度,同时增强大型图像处理的能力。 新引擎的亮点在于其引入了图像处理元数据、KVCache 优化及图像缓存功能。
5/19/2025 10:01:06 AM
AI在线
谷歌Gemma AI模型下载量突破1.5亿,引多模态功能热议
近日,谷歌推出的 Gemma 人工智能模型集下载量已突破1.5亿次,展示出其在 AI 领域的强大吸引力。 Gemma 的多模态功能和支持超过100种语言,使其在众多竞争对手中脱颖而出,吸引了全球开发者的关注。 Gemma 的成功不仅体现在下载量上,其基于 Gemma 模型衍生出的版本也已超过7万个。
5/14/2025 4:00:52 PM
AI在线
仅20B参数!字节推出Seed1.5-VL多模态模型,实现38项SOTA
在上海举办的火山引擎 FORCE LINK AI 创新巡展上,字节跳动正式发布了最新的视觉 - 语言多模态模型 ——Seed1.5-VL。 该模型凭借其出色的通用多模态理解和推理能力,成为此次活动的焦点,吸引了众多业界专家和开发者的关注。 Seed1.5-VL 的显著特点是其增强的多模态理解与推理能力。
5/14/2025 3:00:52 PM
AI在线
字节跳动发布新一代多模态大模型,挑战谷歌 Gemini 2.5 Pro
在人工智能领域竞争日益激烈的今天,字节跳动的 Seed 团队于5月13日正式发布了其最新的多模态大模型 Seed1.5-VL,旨在为智能体技术的进步铺平道路。 该模型经过超过3万亿 tokens 的多模态数据预训练,不仅具备强大的通用多模态理解和推理能力,还显著降低了推理成本。 与谷歌近期推出的 Gemini2.5Pro 相比,Seed1.5-VL 在性能上表现不相上下。
5/14/2025 12:00:52 PM
AI在线
腾讯混元携手科研机构推出首个多模态统一CoT奖励模型并开源
近日,腾讯混元在与上海 AI Lab、复旦大学及上海创智学院的合作下,正式推出了全新研究成果 —— 统一多模态奖励模型(Unified Reward-Think),并宣布全面开源。 这一创新模型不仅具备了强大的长链推理能力,还首次实现了在视觉任务中 “思考” 的能力,使得奖励模型能够更准确地评估复杂的视觉生成与理解任务。 统一多模态奖励模型的推出,标志着奖励模型在各类视觉任务中的应用达到了新的高度。
5/14/2025 10:01:03 AM
AI在线
阿里MNN神更新!移动端开源多模态AI支持Qwen-2.5,文本图像语音全搞定!
阿里巴巴开源项目MNN(Mobile Neural Network)发布了其移动端多模态大模型应用MnnLlmApp的最新版本,新增对Qwen-2.5-Omni-3B和7B模型的支持。 这款完全开源、运行于移动端本地的大模型应用,支持文本到文本、图像到文本、音频到文本和文本到图像生成等多种模态任务,以其高效性能和低资源占用引发开发者广泛关注。 AIbase观察到,MNN的此次更新进一步推动了多模态AI在移动端的普及。
5/13/2025 10:01:07 AM
AI在线
苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型
苹果正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。 FastVLM通过创新的FastViTHD视觉编码器,实现了高达85倍的编码速度提升,为实时多模态AI应用铺平了道路。 技术核心:FastViTHD编码器与高效设计FastVLM的核心在于其全新设计的FastViTHD混合视觉编码器,针对高分辨率图像处理进行了深度优化。
5/12/2025 3:00:52 PM
AI在线
高一致性、强控制力,腾讯发布多模态视频生成利器 HunyuanCustom
腾讯近日正式开源其全新多模态定制视频生成框架——HunyuanCustom,标志着AI视频创作进入更高自由度与精准控制的全新阶段。 该框架基于腾讯自研的 HunyuanVideo 打造,主打**“主体一致性”与“多模态灵活输入”**,致力于实现视频内容与输入素材高度匹配的个性化生成。 HunyuanCustom 的核心优势在于其强大的多模态输入能力:支持用户通过文本描述、单图或多图图像、参考音频甚至已有的视频片段作为输入,系统可综合这些信息生成定制化视频。
5/12/2025 10:01:12 AM
AI在线
商汤科技迈向多模态大模型的新纪元
在过去的两年里,人工智能领域的关注点逐渐转向了大模型的技术发展,而商汤科技作为一家成立不到十年的公司,凭借其在计算机视觉领域的技术积累,正迅速转型,迎接这一浪潮。 尽管在2023年之前,商汤主要聚焦于视觉模型,但随着 DeepSeek R1的发布,市场的重心开始向自然语言处理和大规模参数模型倾斜,商汤的策略也随之调整。 商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”,展现了强大的综合能力,与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。
5/9/2025 4:00:51 PM
AI在线
国内大模型人才大战打响!大厂各出奇招,薪资不设上限、CTO亲自参与指导、无需实习经验
眼花缭乱了。 为争夺AI人才,大厂们齐齐放大招! 各种天才、顶尖人才计划简直看不过来。
5/9/2025 3:22:40 PM
一年狂发22个模型!阶跃星辰CEO姜大昕:AGI的秘密武器不是算力,而是让AI学会“自己教自己”!
在近期的媒体沟通会上,阶跃星辰的创始人兼 CEO 姜大昕分享了公司在多模态人工智能领域的最新进展以及未来的发展规划。 阶跃星辰成立于2023年,致力于开发通用人工智能(AGI),目前已发布22款自研模型,其中16款为多模态模型,这一成就使其在行业内被称为 “多模态卷王”。 姜大昕表示,公司将在未来几个月内推出一款新型推理模型 Step R1,并计划发布更先进的 Step 图片编辑模型。
5/8/2025 6:00:56 PM
AI在线
消息称通义视觉负责人薄列峰离职 或加入某大厂新组建多模态团队
据多方信源透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰(职级P10)已于2024年4月30日正式离职,并低调加盟某头部互联网公司,出任新设立的多模态模型部副总经理一职。 尽管该互联网公司具体名称尚未公开,坊间普遍猜测其去向可能是字节跳动或腾讯,但目前相关公司及本人均未作出回应,尚无法证实具体归属。 图源备注:图片由AI生成,图片授权服务商Midjourney此次人事变动引发业界关注的另一焦点在于“竞业限制”。
5/7/2025 3:00:27 PM
AI在线
Gemini 2.5 Pro再更新!编程能力屠榜!一句话、一张草图变应用
出品 | 51CTO技术栈(微信号:blog51cto)AI 编码模型的新王者登基了! 今天,Google 旗下的 DeepMind AI 研究部门正式发布了 Gemini 2.5 Pro “I/O” 版,这是今年 3 月推出的 Gemini 2.5 Pro 多模态大语言模型(LLM)的更新版本。 DeepMind CEO Demis Hassabis 在 X 上表示:“这是我们迄今为止打造的最佳编码模型!
5/7/2025 10:09:08 AM
从看见到理解,多模态大模型如何重塑行为检测
在人工智能技术快速迭代的今天,行为检测作为计算机视觉领域的重要分支,正迎来一场由多模态大模型引领的技术革命。 作为曾在CV算法公司工作的从业者,我深刻体会到传统计算机视觉方法在实际落地中的诸多痛点。 过去几年,许多行为检测、烟火检测等应用,往往因为高昂的训练成本和难以接受的误报率而被甲方叫停。
5/7/2025 1:00:00 AM
贝塔街的万事屋
通义实验室又一位大佬出走!传应用视觉团队负责人薄列峰已离职,将任职另一大厂多模态模型负责人!
出品 | 51CTO技术栈(微信号:blog51cto)北京时间5月6日,据知情人士透露,阿里巴巴通义实验室应用视觉团队负责人薄列峰(title中不是阿里集团副总裁,所以职级应该为P10)已于4月30日低调离职。 有消息称他已经加入刚刚进行架构调整的某互联网大厂,担任多模态模型部副总经理,向公司副总裁汇报。 最早爆料该消息的公众号之一“互联网八卦小喇叭”发文表示:据可靠消息称:“薄老师于本月离职通义,即将进入某大厂担任多模态模型负责人”。
5/6/2025 4:03:20 PM
阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。 这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。 这一创新标志着阿里在多模态人工智能领域的进一步突破。
5/1/2025 10:00:51 AM
AI在线
图像编辑开源新SOTA,来自多模态卷王阶跃!大模型行业正步入「多模态时间」
全球AI大模型智能涌现,现在正在进入“多模态时间”。 一方面,全球业内各式各样的技术进展,都围绕多模态如火如荼展开。 另一方面,AI应用和落地的需求中,多模态也是最重要的能力。
4/28/2025 2:13:43 PM
Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝
基于视觉编码器的MLLM的基本构成:MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。 模态编码器(如:CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息(如图像或音频)压缩成更紧凑的表示。 预训练的LLM则负责理解和推理处理过的信号。
4/28/2025 2:03:00 AM
余俊晖
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI新词
AI创作
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
苹果
Claude
开发者
AI for Science
Agent
生成式
神经网络
机器学习
3D
xAI
研究
人形机器人
生成
AI视频
百度
计算
工具
Sora
GPU
大语言模型
华为
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
AGI
视频生成
预测
视觉
伟达
架构
Transformer
神器推荐
DeepMind
亚马逊
特斯拉
编程
AI模型