多模态AI

声智科技推全球首款“多模态AI时尚耳机”！声视融合，Kickstarter首发开启随身感知新时代

可穿戴设备迎来“感知革命”。中国AI声学领军企业声智科技（SoundAI）宣布，其全球首款多模态AI时尚耳机将于海外知名众筹平台Kickstarter全球首发。该产品突破传统耳机仅限音频交互的局限，创新性融合视觉感知与声学交互，定位为用户的“随身感知工具”，让AI真正“看得见、听得清、回得准”。

12/25/2025 11:31:48 AM AI在线

苹果发布全新多模态 AI 模型 UniGen 1.5，实现图像理解、生成与编辑三合一

12/19/2025 10:30:57 AM AI在线

前字节跳动视觉模型负责人潘欣加盟美团，主导多模态 AI 创新

据智能涌现消息，外卖巨头美团在 AI 战略上迈出了重要一步，前字节跳动视觉模型 AI 平台负责人潘欣正式加入公司，负责多模态 AI 的创新工作。这一人事变动被业内广泛关注，标志着美团在竞争日益激烈的外卖市场中，正致力于提升 AI 技术的基础设施建设。潘欣在人工智能领域拥有丰富的经验，曾任谷歌大脑的研究员，参与了 TensorFlow 动态图模式的开发。

12/11/2025 9:11:51 AM AI在线

文心大模型5.0重磅发布！百度推全球首个“原生全模态”大模型，李彦宏：智能本身就是最大应用

在今日举行的百度世界大会上，百度创始人、董事长兼CEO李彦宏正式发布文心大模型5.0，并将其定义为“统一的原生全模态模型”——这一命名不仅宣告百度在多模态AI领域的技术跃迁，更标志着国产大模型正式迈入“文本、图像、声音深度融合、原生协同”的新纪元。原生全模态:不是“拼接”，而是“共生”区别于行业主流的“多模态拼接”方案（如先用视觉模型识别图像，再由语言模型生成描述），文心5.0从底层架构实现文本、图像、语音的统一表征与联合训练。这意味着模型不再“先看再想”，而是“边看边听边理解”，能自然处理“描述这张照片中人物的情绪变化”或“根据这段旋律生成匹配的诗歌”等跨模态复杂任务。

11/13/2025 4:57:29 PM AI在线

一张合影就能泄露全家信息？央视紧急预警：“读心AI”正让社交晒图变成隐私炸弹

你以为只是随手发了张旅行合照?在AI大模型的“火眼金睛”下，这张照片可能正在泄露你的住址、身份证号、家庭关系甚至行程轨迹。在2025年世界互联网大会期间，央视新闻罕见发出高危警示:随着多模态AI的普及，看似无害的日常图片正成为隐私泄露的新黑洞，而普通用户对此几乎毫无防备。图源备注：图片由AI生成，图片授权服务商MidjourneyAI“读图术”已远超人类想象网络安全专家指出，现代AI不仅能识别人脸、车牌、证件文字，还能通过上下文推理还原敏感信息。

11/12/2025 10:46:10 AM AI在线

智源发布Emu3.5大模型：以“下一状态预测”重构多模态智能，具身操作能力惊艳业界

当大模型不再只是“看图说话”或“文生图”，而是能像人类一样在复杂环境中理解、规划并执行跨模态操作，多模态AI正迎来质的飞跃。 10月30日，北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5，首次将自回归式“下一状态预测”（Next-State Prediction， NSP）引入多模态序列建模，标志着AI从“感知理解”迈向“智能操作”的关键一步。 NSP架构:让AI学会“预测世界如何变化”Emu3.5的核心突破在于其统一的NSP框架:模型将文本、图像、动作指令等多模态输入视为连续状态序列，通过预测“下一个状态”来实现端到端的智能推理。

10/30/2025 3:36:16 PM AI在线

百度小度 AI 眼镜将于百度世界2025大会正式发布，年内开售

据报道，百度旗下小度 AI 眼镜将于 11月举行的百度世界2025大会上正式发布，并计划在今年年内开售。这款产品是百度在多模态 AI 与可穿戴设备领域的重要落地成果，标志着其在智能硬件生态中的新一步。事实上，小度 AI 眼镜早在 2024年百度世界大会上就曾首次亮相。

10/21/2025 10:27:07 AM AI在线

生数科技获数亿元融资，视频生成引领AI商业化新潮流

近日，多模态 AI 领域的先锋企业生数科技宣布成功完成数亿元人民币的 A 轮融资。这轮融资由博华资本领投，老股东百度战投、北京市人工智能产业投资基金等多个投资方继续跟进，显示出市场对生数科技的高度认可。公司计划利用这笔资金进一步推动模型研发和技术创新，探索多模态大模型的潜力，进而加速产品拓展和用户服务。

9/19/2025 4:21:29 PM AI在线

NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型

近日，美国国家科学基金会（NSF）与 NVIDIA 联合宣布将投资1.52亿美元，开展一项名为 “开放多模态 AI 基础设施加速科学”(OMAI)的新项目，由艾伦人工智能研究所(Ai2)牵头。该项目的目标是开发开放源代码的多模态 AI 模型，旨在帮助各学科的研究人员更有效地进行科学研究。 OMAI 计划中，国家科学基金会将提供7500万美元，NVIDIA 则投资7700万美元，共同创建一个开放的 AI 生态系统。

8/21/2025 10:17:02 AM AI在线

MiniMax重磅发布视频Agent工具：一句话生成高清视频，人脸ID还能完美一致！

近日，MiniMax公司推出了一款令人瞩目的视频Agent工具，为视频生成技术带来了全新突破。这款工具不仅支持通过简单文本指令生成完整视频，还能通过上传人脸图片实现视频中人物身份的精准一致性，展现了MiniMax在多模态AI领域的强大实力。一句话生成高清视频，创作效率飙升MiniMax的视频Agent工具主打文本到视频的生成能力，用户只需输入一句描述性文本提示，例如“夕阳下的海滩上，一辆复古跑车疾驰而过”，即可快速生成一段高清视频（720p分辨率，25帧/秒）。

6/20/2025 11:01:11 AM AI在线

多模态AI席卷网络，DeepMind Veo 3与GPT-4o引领增长新引擎

近年来，多模态AI技术以其强大的跨领域能力，逐渐成为科技行业的增长引擎。谷歌DeepMind最新发布的Veo3模型以及OpenAI的GPT-4o，通过结合文本、图像、视频甚至音频的生成能力，不仅提升了用户体验，还在全球范围内引发了广泛关注和流量激增。以下，AIbase将为您梳理来自网络的最新信息，深入剖析多模态AI如何推动技术与商业的双重突破。

6/18/2025 10:01:54 AM AI在线

NVIDIA放大招！Llama-Nemotron-Nano-VL-8B-V1发布，图像视频文本全能，微调王座谁与争锋？

人工智能领域的竞争日趋白热化，NVIDIA再次以其强大的技术实力引领潮流。 AIbase从社交媒体平台获悉，NVIDIA最新发布了Llama-3.1-Nemotron-Nano-VL-8B-V1，一款支持图像、视频和文本输入的视觉到文本模型，输出高质量文本并具备图像推理能力。这一模型的发布不仅展示了NVIDIA在多模态AI领域的雄心，也为开发者提供了高效的轻量化解决方案。

6/5/2025 3:00:55 PM AI在线

国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布

2025年4月25日，百度Create AI开发者大会在北京隆重举行。在这场备受瞩目的科技盛会中，百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体，标志着AI编程工具进入了一个全新的发展阶段。在本次大会上，百度工程效能部总监臧志表示，AI是百度提升工程效率最重要的生产力来源，智能体是大模型能力与研发生产力之间最关键的桥梁。

4/27/2025 6:00:38 PM AI在线

Moonshot AI发布Kimi-Audio：开源音频基础模型树立新标杆

近日，Moonshot AI正式宣布推出Kimi-Audio，一款全新的开源音频基础模型，旨在推动音频理解、生成和交互领域的技术进步。这一发布引发了全球AI社区的广泛关注，被认为是多模态AI发展的重要里程碑。以下是对Kimi-Audio核心特性、性能表现及行业影响的全面报道。

4/27/2025 10:00:49 AM AI在线

Grok大更新！视觉能力、多语言音频处理与实时搜索功能震撼上线

由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新，其功能全面升级，不仅新增了视觉处理能力，还实现了多语言音频处理以及语音模式下的实时搜索功能。这一更新标志着Grok在多模态AI领域的重大突破，为用户提供了更智能、更便捷的交互体验。以下，AIbase将为您详细解析此次更新的亮点与意义。

4/23/2025 9:00:42 AM AI在线

苹果与索邦大学联合研究：早期融合与稀疏架构助力多模态 AI 发展

在多模态人工智能（AI）领域，苹果公司的工程师们与法国索邦大学的研究团队合作，展开了一项重要研究。近日，科技媒体 marktechpost 发布了相关博文，探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。研究表明，从头训练的早期融合模型在计算效率和可扩展性上更具优势。

4/16/2025 5:01:05 PM AI在线

MiniMax MCP Server正式上线，开启多模态AI新纪元

人工智能技术的边界正在不断拓展。 AIbase从社交媒体获悉，中国AI初创公司MiniMax稀宇科技于近日宣布，其MiniMax MCP Server正式上线。这一服务器通过简单的文本输入，即可调用视频生成、图像生成、语音生成及声音克隆等多项能力，并兼容多种主流MCP客户端，为开发者与创作者提供了强大的多模态AI工具。

4/15/2025 12:02:39 PM AI在线

报道称OpenAI下周重磅发布GPT-4.1系列，包含Mini版和Nano版

人工智能领域的领跑者OpenAI即将在下周掀起新一波技术热潮!据科技媒体 The Verge 报道，OpenAI计划推出包括GPT-4.1系列、o3系列以及其他多款AI模型在内的重大更新。这一波密集发布不仅彰显了OpenAI加速创新的雄心，也为行业带来了更强大的AI工具。 GPT-4.1系列:多模态能力的全面升级作为GPT-4.0的继任者，GPT-4.1系列被认为是OpenAI在多模态AI领域的又一力作。

4/13/2025 7:34:52 AM AI在线

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型 AI新词机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 英伟达马斯克 Anthropic 图像 AI创作训练 LLM 论文代码 AI for Science 苹果算法腾讯 Agent Claude 芯片 Stable Diffusion 具身智能 xAI 蛋白质开发者人形机器人生成式神经网络机器学习 AI视频 3D RAG 大语言模型字节跳动 Sora 百度研究 GPU 生成工具华为 AGI 计算大型语言模型 AI设计生成式AI 搜索视频生成亚马逊 AI模型特斯拉 DeepMind 场景深度学习 Transformer Copilot 架构 MCP 编程视觉

多模态AI

声智科技推全球首款“多模态AI时尚耳机”！声视融合，Kickstarter首发开启随身感知新时代

苹果发布全新多模态 AI 模型 UniGen 1.5，实现图像理解、生成与编辑三合一

前字节跳动视觉模型负责人潘欣加盟美团，主导多模态 AI 创新

文心大模型5.0重磅发布！百度推全球首个“原生全模态”大模型，李彦宏：智能本身就是最大应用

一张合影就能泄露全家信息？央视紧急预警：“读心AI”正让社交晒图变成隐私炸弹

智源发布Emu3.5大模型：以“下一状态预测”重构多模态智能，具身操作能力惊艳业界

百度小度 AI 眼镜将于百度世界2025大会正式发布，年内开售

生数科技获数亿元融资，视频生成引领AI商业化新潮流

NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型

MiniMax重磅发布视频Agent工具：一句话生成高清视频，人脸ID还能完美一致！

多模态AI席卷网络，DeepMind Veo 3与GPT-4o引领增长新引擎

NVIDIA放大招！Llama-Nemotron-Nano-VL-8B-V1发布，图像视频文本全能，微调王座谁与争锋？

国内首个多模态AI程序员正式上岗 文心快码Coding智能体Zulu正式发布

Moonshot AI发布Kimi-Audio：开源音频基础模型树立新标杆

Grok大更新！视觉能力、多语言音频处理与实时搜索功能震撼上线

苹果与索邦大学联合研究：早期融合与稀疏架构助力多模态 AI 发展

MiniMax MCP Server正式上线，开启多模态AI新纪元

报道称OpenAI下周重磅发布GPT-4.1系列，包含Mini版和Nano版

国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布