多模态AI
前字节跳动视觉模型负责人潘欣加盟美团,主导多模态 AI 创新
据智能涌现消息,外卖巨头美团在 AI 战略上迈出了重要一步,前字节跳动视觉模型 AI 平台负责人潘欣正式加入公司,负责多模态 AI 的创新工作。 这一人事变动被业内广泛关注,标志着美团在竞争日益激烈的外卖市场中,正致力于提升 AI 技术的基础设施建设。 潘欣在人工智能领域拥有丰富的经验,曾任谷歌大脑的研究员,参与了 TensorFlow 动态图模式的开发。
12/11/2025 9:11:51 AM
AI在线
文心大模型5.0重磅发布!百度推全球首个“原生全模态”大模型,李彦宏:智能本身就是最大应用
在今日举行的百度世界大会上,百度创始人、董事长兼CEO李彦宏正式发布文心大模型5.0,并将其定义为“统一的原生全模态模型”——这一命名不仅宣告百度在多模态AI领域的技术跃迁,更标志着国产大模型正式迈入“文本、图像、声音深度融合、原生协同”的新纪元。 原生全模态:不是“拼接”,而是“共生”区别于行业主流的“多模态拼接”方案(如先用视觉模型识别图像,再由语言模型生成描述),文心5.0从底层架构实现文本、图像、语音的统一表征与联合训练。 这意味着模型不再“先看再想”,而是“边看边听边理解”,能自然处理“描述这张照片中人物的情绪变化”或“根据这段旋律生成匹配的诗歌”等跨模态复杂任务。
11/13/2025 4:57:29 PM
AI在线
一张合影就能泄露全家信息?央视紧急预警:“读心AI”正让社交晒图变成隐私炸弹
你以为只是随手发了张旅行合照?在AI大模型的“火眼金睛”下,这张照片可能正在泄露你的住址、身份证号、家庭关系甚至行程轨迹。 在2025年世界互联网大会期间,央视新闻罕见发出高危警示:随着多模态AI的普及,看似无害的日常图片正成为隐私泄露的新黑洞,而普通用户对此几乎毫无防备。 图源备注:图片由AI生成,图片授权服务商MidjourneyAI“读图术”已远超人类想象网络安全专家指出,现代AI不仅能识别人脸、车牌、证件文字,还能通过上下文推理还原敏感信息。
11/12/2025 10:46:10 AM
AI在线
智源发布Emu3.5大模型:以“下一状态预测”重构多模态智能,具身操作能力惊艳业界
当大模型不再只是“看图说话”或“文生图”,而是能像人类一样在复杂环境中理解、规划并执行跨模态操作,多模态AI正迎来质的飞跃。 10月30日,北京智源人工智能研究院正式发布其新一代多模态世界模型——Emu3.5,首次将自回归式“下一状态预测”(Next-State Prediction, NSP)引入多模态序列建模,标志着AI从“感知理解”迈向“智能操作”的关键一步。 NSP架构:让AI学会“预测世界如何变化”Emu3.5的核心突破在于其统一的NSP框架:模型将文本、图像、动作指令等多模态输入视为连续状态序列,通过预测“下一个状态”来实现端到端的智能推理。
10/30/2025 3:36:16 PM
AI在线
百度小度 AI 眼镜将于百度世界2025大会正式发布,年内开售
据报道,百度旗下 小度 AI 眼镜 将于 11月举行的百度世界2025大会 上正式发布,并计划在 今年年内开售。 这款产品是百度在多模态 AI 与可穿戴设备领域的重要落地成果,标志着其在智能硬件生态中的新一步。 事实上,小度 AI 眼镜早在 2024年百度世界大会 上就曾首次亮相。
10/21/2025 10:27:07 AM
AI在线
生数科技获数亿元融资,视频生成引领AI商业化新潮流
近日,多模态 AI 领域的先锋企业生数科技宣布成功完成数亿元人民币的 A 轮融资。 这轮融资由博华资本领投,老股东百度战投、北京市人工智能产业投资基金等多个投资方继续跟进,显示出市场对生数科技的高度认可。 公司计划利用这笔资金进一步推动模型研发和技术创新,探索多模态大模型的潜力,进而加速产品拓展和用户服务。
9/19/2025 4:21:29 PM
AI在线
NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型
近日,美国国家科学基金会(NSF)与 NVIDIA 联合宣布将投资1.52亿美元,开展一项名为 “开放多模态 AI 基础设施加速科学”(OMAI)的新项目,由艾伦人工智能研究所(Ai2)牵头。 该项目的目标是开发开放源代码的多模态 AI 模型,旨在帮助各学科的研究人员更有效地进行科学研究。 OMAI 计划中,国家科学基金会将提供7500万美元,NVIDIA 则投资7700万美元,共同创建一个开放的 AI 生态系统。
8/21/2025 10:17:02 AM
AI在线
MiniMax重磅发布视频Agent工具:一句话生成高清视频,人脸ID还能完美一致!
近日,MiniMax公司推出了一款令人瞩目的视频Agent工具,为视频生成技术带来了全新突破。 这款工具不仅支持通过简单文本指令生成完整视频,还能通过上传人脸图片实现视频中人物身份的精准一致性,展现了MiniMax在多模态AI领域的强大实力。 一句话生成高清视频,创作效率飙升MiniMax的视频Agent工具主打文本到视频的生成能力,用户只需输入一句描述性文本提示,例如“夕阳下的海滩上,一辆复古跑车疾驰而过”,即可快速生成一段高清视频(720p分辨率,25帧/秒)。
6/20/2025 11:01:11 AM
AI在线
多模态AI席卷网络,DeepMind Veo 3与GPT-4o引领增长新引擎
近年来,多模态AI技术以其强大的跨领域能力,逐渐成为科技行业的增长引擎。 谷歌DeepMind最新发布的Veo3模型以及OpenAI的GPT-4o,通过结合文本、图像、视频甚至音频的生成能力,不仅提升了用户体验,还在全球范围内引发了广泛关注和流量激增。 以下,AIbase将为您梳理来自网络的最新信息,深入剖析多模态AI如何推动技术与商业的双重突破。
6/18/2025 10:01:54 AM
AI在线
NVIDIA放大招!Llama-Nemotron-Nano-VL-8B-V1发布,图像视频文本全能,微调王座谁与争锋?
人工智能领域的竞争日趋白热化,NVIDIA再次以其强大的技术实力引领潮流。 AIbase从社交媒体平台获悉,NVIDIA最新发布了Llama-3.1-Nemotron-Nano-VL-8B-V1,一款支持图像、视频和文本输入的视觉到文本模型,输出高质量文本并具备图像推理能力。 这一模型的发布不仅展示了NVIDIA在多模态AI领域的雄心,也为开发者提供了高效的轻量化解决方案。
6/5/2025 3:00:55 PM
AI在线
国内首个多模态AI程序员正式上岗 文心快码Coding智能体Zulu正式发布
2025年4月25日,百度Create AI开发者大会在北京隆重举行。 在这场备受瞩目的科技盛会中,百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体,标志着AI编程工具进入了一个全新的发展阶段。 在本次大会上,百度工程效能部总监臧志表示,AI是百度提升工程效率最重要的生产力来源,智能体是大模型能力与研发生产力之间最关键的桥梁。
4/27/2025 6:00:38 PM
AI在线
Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆
近日,Moonshot AI正式宣布推出Kimi-Audio,一款全新的开源音频基础模型,旨在推动音频理解、生成和交互领域的技术进步。 这一发布引发了全球AI社区的广泛关注,被认为是多模态AI发展的重要里程碑。 以下是对Kimi-Audio核心特性、性能表现及行业影响的全面报道。
4/27/2025 10:00:49 AM
AI在线
Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线
由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。 这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。 以下,AIbase将为您详细解析此次更新的亮点与意义。
4/23/2025 9:00:42 AM
AI在线
苹果与索邦大学联合研究:早期融合与稀疏架构助力多模态 AI 发展
在多模态人工智能(AI)领域,苹果公司的工程师们与法国索邦大学的研究团队合作,展开了一项重要研究。 近日,科技媒体 marktechpost 发布了相关博文,探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。 研究表明,从头训练的早期融合模型在计算效率和可扩展性上更具优势。
4/16/2025 5:01:05 PM
AI在线
MiniMax MCP Server正式上线,开启多模态AI新纪元
人工智能技术的边界正在不断拓展。 AIbase从社交媒体获悉,中国AI初创公司MiniMax稀宇科技于近日宣布,其MiniMax MCP Server正式上线。 这一服务器通过简单的文本输入,即可调用视频生成、图像生成、语音生成及声音克隆等多项能力,并兼容多种主流MCP客户端,为开发者与创作者提供了强大的多模态AI工具。
4/15/2025 12:02:39 PM
AI在线
报道称OpenAI下周重磅发布GPT-4.1系列,包含Mini版和Nano版
人工智能领域的领跑者OpenAI即将在下周掀起新一波技术热潮!据科技媒体 The Verge 报道,OpenAI计划推出包括GPT-4.1系列、o3系列以及其他多款AI模型在内的重大更新。 这一波密集发布不仅彰显了OpenAI加速创新的雄心,也为行业带来了更强大的AI工具。 GPT-4.1系列:多模态能力的全面升级作为GPT-4.0的继任者,GPT-4.1系列被认为是OpenAI在多模态AI领域的又一力作。
4/13/2025 7:34:52 AM
AI在线
联想CTO:押注多模态AI协作,打造模型工厂加速智能体落地
在联想集团2025/26财年誓师大会上,首席技术官Tolga Kurtoglu强调,当前AI应用仍处于快速迭代的技术演示阶段,远未真正释放为用户创造价值的成熟能力。 他指出,未来AI发展的关键在于将技术转化为以用户为中心的解决方案,构建联想独特的差异化优势。 Kurtoglu描绘了未来以用户为中心的AI图景:它将不再受限于单一模型、芯片、设备或形态,而是由端侧、云端、边缘等多种模型和智能体协同运作,无缝地为用户提供服务。
3/31/2025 12:00:49 PM
AI在线
马斯克xAI收购视频生成初创公司Hotshot,AI视频领域竞争再升级
硅谷科技巨头的版图扩张再添新篇!埃隆·马斯克旗下的xAI公司今日宣布收购专注于视频生成AI技术的初创公司Hotshot,这一战略收购将为xAI在多模态AI技术领域注入新的活力。 Hotshot首席执行官Aakash Sastry在X平台上正式宣布了这一消息,但未透露具体的交易金额。 作为曾获得Reddit联合创始人Alexis Ohanian和SV Angel等知名投资方支持的新锐科技公司,Hotshot(正式名称为Natural Synthetics Inc.)在AI视频生成领域积累了独特的技术优势。
3/18/2025 11:35:00 AM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI绘画
大模型
机器人
数据
AI新词
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
技术
智能体
Gemini
马斯克
Anthropic
英伟达
图像
AI创作
训练
LLM
论文
代码
算法
苹果
AI for Science
Agent
Claude
腾讯
芯片
Stable Diffusion
蛋白质
具身智能
开发者
xAI
生成式
神经网络
机器学习
人形机器人
3D
AI视频
RAG
大语言模型
研究
百度
Sora
生成
GPU
工具
华为
字节跳动
计算
AGI
大型语言模型
AI设计
搜索
生成式AI
视频生成
DeepMind
特斯拉
场景
AI模型
深度学习
亚马逊
架构
Transformer
MCP
编程
视觉
Copilot