AI在线 AI在线

多模态AI

前字节跳动视觉模型负责人潘欣加盟美团,主导多模态 AI 创新

据智能涌现消息,外卖巨头美团在 AI 战略上迈出了重要一步,前字节跳动视觉模型 AI 平台负责人潘欣正式加入公司,负责多模态 AI 的创新工作。 这一人事变动被业内广泛关注,标志着美团在竞争日益激烈的外卖市场中,正致力于提升 AI 技术的基础设施建设。 潘欣在人工智能领域拥有丰富的经验,曾任谷歌大脑的研究员,参与了 TensorFlow 动态图模式的开发。
12/11/2025 9:11:51 AM
AI在线

文心大模型5.0重磅发布!百度推全球首个“原生全模态”大模型,李彦宏:智能本身就是最大应用

在今日举行的百度世界大会上,百度创始人、董事长兼CEO李彦宏正式发布文心大模型5.0,并将其定义为“统一的原生全模态模型”——这一命名不仅宣告百度在多模态AI领域的技术跃迁,更标志着国产大模型正式迈入“文本、图像、声音深度融合、原生协同”的新纪元。 原生全模态:不是“拼接”,而是“共生”区别于行业主流的“多模态拼接”方案(如先用视觉模型识别图像,再由语言模型生成描述),文心5.0从底层架构实现文本、图像、语音的统一表征与联合训练。 这意味着模型不再“先看再想”,而是“边看边听边理解”,能自然处理“描述这张照片中人物的情绪变化”或“根据这段旋律生成匹配的诗歌”等跨模态复杂任务。
11/13/2025 4:57:29 PM
AI在线

一张合影就能泄露全家信息?央视紧急预警:“读心AI”正让社交晒图变成隐私炸弹

你以为只是随手发了张旅行合照?在AI大模型的“火眼金睛”下,这张照片可能正在泄露你的住址、身份证号、家庭关系甚至行程轨迹。 在2025年世界互联网大会期间,央视新闻罕见发出高危警示:随着多模态AI的普及,看似无害的日常图片正成为隐私泄露的新黑洞,而普通用户对此几乎毫无防备。 图源备注:图片由AI生成,图片授权服务商MidjourneyAI“读图术”已远超人类想象网络安全专家指出,现代AI不仅能识别人脸、车牌、证件文字,还能通过上下文推理还原敏感信息。
11/12/2025 10:46:10 AM
AI在线

智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界

当大模型不再只是“看图说话”或“文生图”,而是能像人类一样在复杂环境中理解、规划并执行跨模态操作,多模态AI正迎来质的飞跃。 10月30日,北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5,首次将自回归式“下一状态预测”(Next-State Prediction, NSP)引入多模态序列建模,标志着AI从“感知理解”迈向“智能操作”的关键一步。 NSP架构:让AI学会“预测世界如何变化”Emu3.5的核心突破在于其统一的NSP框架:模型将文本、图像、动作指令等多模态输入视为连续状态序列,通过预测“下一个状态”来实现端到端的智能推理。
10/30/2025 3:36:16 PM
AI在线

百度小度 AI 眼镜将于百度世界2025大会正式发布,年内开售

据报道,百度旗下 小度 AI 眼镜 将于 11月举行的百度世界2025大会 上正式发布,并计划在 今年年内开售。 这款产品是百度在多模态 AI 与可穿戴设备领域的重要落地成果,标志着其在智能硬件生态中的新一步。 事实上,小度 AI 眼镜早在 2024年百度世界大会 上就曾首次亮相。
10/21/2025 10:27:07 AM
AI在线

生数科技获数亿元融资,视频生成引领AI商业化新潮流

近日,多模态 AI 领域的先锋企业生数科技宣布成功完成数亿元人民币的 A 轮融资。 这轮融资由博华资本领投,老股东百度战投、北京市人工智能产业投资基金等多个投资方继续跟进,显示出市场对生数科技的高度认可。 公司计划利用这笔资金进一步推动模型研发和技术创新,探索多模态大模型的潜力,进而加速产品拓展和用户服务。
9/19/2025 4:21:29 PM
AI在线

NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型

近日,美国国家科学基金会(NSF)与 NVIDIA 联合宣布将投资1.52亿美元,开展一项名为 “开放多模态 AI 基础设施加速科学”(OMAI)的新项目,由艾伦人工智能研究所(Ai2)牵头。 该项目的目标是开发开放源代码的多模态 AI 模型,旨在帮助各学科的研究人员更有效地进行科学研究。 OMAI 计划中,国家科学基金会将提供7500万美元,NVIDIA 则投资7700万美元,共同创建一个开放的 AI 生态系统。
8/21/2025 10:17:02 AM
AI在线

MiniMax重磅发布视频Agent工具:一句话生成高清视频,人脸ID还能完美一致!

近日,MiniMax公司推出了一款令人瞩目的视频Agent工具,为视频生成技术带来了全新突破。 这款工具不仅支持通过简单文本指令生成完整视频,还能通过上传人脸图片实现视频中人物身份的精准一致性,展现了MiniMax在多模态AI领域的强大实力。 一句话生成高清视频,创作效率飙升MiniMax的视频Agent工具主打文本到视频的生成能力,用户只需输入一句描述性文本提示,例如“夕阳下的海滩上,一辆复古跑车疾驰而过”,即可快速生成一段高清视频(720p分辨率,25帧/秒)。
6/20/2025 11:01:11 AM
AI在线

多模态AI席卷网络,DeepMind Veo 3与GPT-4o引领增长新引擎

近年来,多模态AI技术以其强大的跨领域能力,逐渐成为科技行业的增长引擎。 谷歌DeepMind最新发布的Veo3模型以及OpenAI的GPT-4o,通过结合文本、图像、视频甚至音频的生成能力,不仅提升了用户体验,还在全球范围内引发了广泛关注和流量激增。 以下,AIbase将为您梳理来自网络的最新信息,深入剖析多模态AI如何推动技术与商业的双重突破。
6/18/2025 10:01:54 AM
AI在线

NVIDIA放大招!Llama-Nemotron-Nano-VL-8B-V1发布,图像视频文本全能,微调王座谁与争锋?

人工智能领域的竞争日趋白热化,NVIDIA再次以其强大的技术实力引领潮流。 AIbase从社交媒体平台获悉,NVIDIA最新发布了Llama-3.1-Nemotron-Nano-VL-8B-V1,一款支持图像、视频和文本输入的视觉到文本模型,输出高质量文本并具备图像推理能力。 这一模型的发布不仅展示了NVIDIA在多模态AI领域的雄心,也为开发者提供了高效的轻量化解决方案。
6/5/2025 3:00:55 PM
AI在线

国内首个多模态AI程序员正式上岗 文心快码Coding智能体Zulu正式发布

2025年4月25日,百度Create AI开发者大会在北京隆重举行。 在这场备受瞩目的科技盛会中,百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体,标志着AI编程工具进入了一个全新的发展阶段。 在本次大会上,百度工程效能部总监臧志表示,AI是百度提升工程效率最重要的生产力来源,智能体是大模型能力与研发生产力之间最关键的桥梁。
4/27/2025 6:00:38 PM
AI在线

Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆

近日,Moonshot AI正式宣布推出Kimi-Audio,一款全新的开源音频基础模型,旨在推动音频理解、生成和交互领域的技术进步。 这一发布引发了全球AI社区的广泛关注,被认为是多模态AI发展的重要里程碑。 以下是对Kimi-Audio核心特性、性能表现及行业影响的全面报道。
4/27/2025 10:00:49 AM
AI在线

Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。 这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。 以下,AIbase将为您详细解析此次更新的亮点与意义。
4/23/2025 9:00:42 AM
AI在线

苹果与索邦大学联合研究:早期融合与稀疏架构助力多模态 AI 发展

在多模态人工智能(AI)领域,苹果公司的工程师们与法国索邦大学的研究团队合作,展开了一项重要研究。 近日,科技媒体 marktechpost 发布了相关博文,探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。 研究表明,从头训练的早期融合模型在计算效率和可扩展性上更具优势。
4/16/2025 5:01:05 PM
AI在线

MiniMax MCP Server正式上线,开启多模态AI新纪元

人工智能技术的边界正在不断拓展。 AIbase从社交媒体获悉,中国AI初创公司MiniMax稀宇科技于近日宣布,其MiniMax MCP Server正式上线。 这一服务器通过简单的文本输入,即可调用视频生成、图像生成、语音生成及声音克隆等多项能力,并兼容多种主流MCP客户端,为开发者与创作者提供了强大的多模态AI工具。
4/15/2025 12:02:39 PM
AI在线

报道称OpenAI下周重磅发布GPT-4.1系列,包含Mini版和Nano版

人工智能领域的领跑者OpenAI即将在下周掀起新一波技术热潮!据科技媒体 The Verge 报道,OpenAI计划推出包括GPT-4.1系列、o3系列以及其他多款AI模型在内的重大更新。 这一波密集发布不仅彰显了OpenAI加速创新的雄心,也为行业带来了更强大的AI工具。 GPT-4.1系列:多模态能力的全面升级作为GPT-4.0的继任者,GPT-4.1系列被认为是OpenAI在多模态AI领域的又一力作。
4/13/2025 7:34:52 AM
AI在线

联想CTO:押注多模态AI协作,打造模型工厂加速智能体落地

在联想集团2025/26财年誓师大会上,首席技术官Tolga Kurtoglu强调,当前AI应用仍处于快速迭代的技术演示阶段,远未真正释放为用户创造价值的成熟能力。 他指出,未来AI发展的关键在于将技术转化为以用户为中心的解决方案,构建联想独特的差异化优势。 Kurtoglu描绘了未来以用户为中心的AI图景:它将不再受限于单一模型、芯片、设备或形态,而是由端侧、云端、边缘等多种模型和智能体协同运作,无缝地为用户提供服务。
3/31/2025 12:00:49 PM
AI在线

马斯克xAI收购视频生成初创公司Hotshot,AI视频领域竞争再升级

硅谷科技巨头的版图扩张再添新篇!埃隆·马斯克旗下的xAI公司今日宣布收购专注于视频生成AI技术的初创公司Hotshot,这一战略收购将为xAI在多模态AI技术领域注入新的活力。 Hotshot首席执行官Aakash Sastry在X平台上正式宣布了这一消息,但未透露具体的交易金额。 作为曾获得Reddit联合创始人Alexis Ohanian和SV Angel等知名投资方支持的新锐科技公司,Hotshot(正式名称为Natural Synthetics Inc.)在AI视频生成领域积累了独特的技术优势。
3/18/2025 11:35:00 AM
AI在线