多模态AI
百度小度 AI 眼镜将于百度世界2025大会正式发布,年内开售
据报道,百度旗下 小度 AI 眼镜 将于 11月举行的百度世界2025大会 上正式发布,并计划在 今年年内开售。 这款产品是百度在多模态 AI 与可穿戴设备领域的重要落地成果,标志着其在智能硬件生态中的新一步。 事实上,小度 AI 眼镜早在 2024年百度世界大会 上就曾首次亮相。
10/21/2025 10:27:07 AM
AI在线
生数科技获数亿元融资,视频生成引领AI商业化新潮流
近日,多模态 AI 领域的先锋企业生数科技宣布成功完成数亿元人民币的 A 轮融资。 这轮融资由博华资本领投,老股东百度战投、北京市人工智能产业投资基金等多个投资方继续跟进,显示出市场对生数科技的高度认可。 公司计划利用这笔资金进一步推动模型研发和技术创新,探索多模态大模型的潜力,进而加速产品拓展和用户服务。
9/19/2025 4:21:29 PM
AI在线
NVIDIA 与美国国家科学基金会携手打造开放科学 AI 模型
近日,美国国家科学基金会(NSF)与 NVIDIA 联合宣布将投资1.52亿美元,开展一项名为 “开放多模态 AI 基础设施加速科学”(OMAI)的新项目,由艾伦人工智能研究所(Ai2)牵头。 该项目的目标是开发开放源代码的多模态 AI 模型,旨在帮助各学科的研究人员更有效地进行科学研究。 OMAI 计划中,国家科学基金会将提供7500万美元,NVIDIA 则投资7700万美元,共同创建一个开放的 AI 生态系统。
8/21/2025 10:17:02 AM
AI在线
MiniMax重磅发布视频Agent工具:一句话生成高清视频,人脸ID还能完美一致!
近日,MiniMax公司推出了一款令人瞩目的视频Agent工具,为视频生成技术带来了全新突破。 这款工具不仅支持通过简单文本指令生成完整视频,还能通过上传人脸图片实现视频中人物身份的精准一致性,展现了MiniMax在多模态AI领域的强大实力。 一句话生成高清视频,创作效率飙升MiniMax的视频Agent工具主打文本到视频的生成能力,用户只需输入一句描述性文本提示,例如“夕阳下的海滩上,一辆复古跑车疾驰而过”,即可快速生成一段高清视频(720p分辨率,25帧/秒)。
6/20/2025 11:01:11 AM
AI在线
多模态AI席卷网络,DeepMind Veo 3与GPT-4o引领增长新引擎
近年来,多模态AI技术以其强大的跨领域能力,逐渐成为科技行业的增长引擎。 谷歌DeepMind最新发布的Veo3模型以及OpenAI的GPT-4o,通过结合文本、图像、视频甚至音频的生成能力,不仅提升了用户体验,还在全球范围内引发了广泛关注和流量激增。 以下,AIbase将为您梳理来自网络的最新信息,深入剖析多模态AI如何推动技术与商业的双重突破。
6/18/2025 10:01:54 AM
AI在线
NVIDIA放大招!Llama-Nemotron-Nano-VL-8B-V1发布,图像视频文本全能,微调王座谁与争锋?
人工智能领域的竞争日趋白热化,NVIDIA再次以其强大的技术实力引领潮流。 AIbase从社交媒体平台获悉,NVIDIA最新发布了Llama-3.1-Nemotron-Nano-VL-8B-V1,一款支持图像、视频和文本输入的视觉到文本模型,输出高质量文本并具备图像推理能力。 这一模型的发布不仅展示了NVIDIA在多模态AI领域的雄心,也为开发者提供了高效的轻量化解决方案。
6/5/2025 3:00:55 PM
AI在线
国内首个多模态AI程序员正式上岗 文心快码Coding智能体Zulu正式发布
2025年4月25日,百度Create AI开发者大会在北京隆重举行。 在这场备受瞩目的科技盛会中,百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体,标志着AI编程工具进入了一个全新的发展阶段。 在本次大会上,百度工程效能部总监臧志表示,AI是百度提升工程效率最重要的生产力来源,智能体是大模型能力与研发生产力之间最关键的桥梁。
4/27/2025 6:00:38 PM
AI在线
Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆
近日,Moonshot AI正式宣布推出Kimi-Audio,一款全新的开源音频基础模型,旨在推动音频理解、生成和交互领域的技术进步。 这一发布引发了全球AI社区的广泛关注,被认为是多模态AI发展的重要里程碑。 以下是对Kimi-Audio核心特性、性能表现及行业影响的全面报道。
4/27/2025 10:00:49 AM
AI在线
Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线
由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。 这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。 以下,AIbase将为您详细解析此次更新的亮点与意义。
4/23/2025 9:00:42 AM
AI在线
苹果与索邦大学联合研究:早期融合与稀疏架构助力多模态 AI 发展
在多模态人工智能(AI)领域,苹果公司的工程师们与法国索邦大学的研究团队合作,展开了一项重要研究。 近日,科技媒体 marktechpost 发布了相关博文,探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。 研究表明,从头训练的早期融合模型在计算效率和可扩展性上更具优势。
4/16/2025 5:01:05 PM
AI在线
MiniMax MCP Server正式上线,开启多模态AI新纪元
人工智能技术的边界正在不断拓展。 AIbase从社交媒体获悉,中国AI初创公司MiniMax稀宇科技于近日宣布,其MiniMax MCP Server正式上线。 这一服务器通过简单的文本输入,即可调用视频生成、图像生成、语音生成及声音克隆等多项能力,并兼容多种主流MCP客户端,为开发者与创作者提供了强大的多模态AI工具。
4/15/2025 12:02:39 PM
AI在线
报道称OpenAI下周重磅发布GPT-4.1系列,包含Mini版和Nano版
人工智能领域的领跑者OpenAI即将在下周掀起新一波技术热潮!据科技媒体 The Verge 报道,OpenAI计划推出包括GPT-4.1系列、o3系列以及其他多款AI模型在内的重大更新。 这一波密集发布不仅彰显了OpenAI加速创新的雄心,也为行业带来了更强大的AI工具。 GPT-4.1系列:多模态能力的全面升级作为GPT-4.0的继任者,GPT-4.1系列被认为是OpenAI在多模态AI领域的又一力作。
4/13/2025 7:34:52 AM
AI在线
联想CTO:押注多模态AI协作,打造模型工厂加速智能体落地
在联想集团2025/26财年誓师大会上,首席技术官Tolga Kurtoglu强调,当前AI应用仍处于快速迭代的技术演示阶段,远未真正释放为用户创造价值的成熟能力。 他指出,未来AI发展的关键在于将技术转化为以用户为中心的解决方案,构建联想独特的差异化优势。 Kurtoglu描绘了未来以用户为中心的AI图景:它将不再受限于单一模型、芯片、设备或形态,而是由端侧、云端、边缘等多种模型和智能体协同运作,无缝地为用户提供服务。
3/31/2025 12:00:49 PM
AI在线
马斯克xAI收购视频生成初创公司Hotshot,AI视频领域竞争再升级
硅谷科技巨头的版图扩张再添新篇!埃隆·马斯克旗下的xAI公司今日宣布收购专注于视频生成AI技术的初创公司Hotshot,这一战略收购将为xAI在多模态AI技术领域注入新的活力。 Hotshot首席执行官Aakash Sastry在X平台上正式宣布了这一消息,但未透露具体的交易金额。 作为曾获得Reddit联合创始人Alexis Ohanian和SV Angel等知名投资方支持的新锐科技公司,Hotshot(正式名称为Natural Synthetics Inc.)在AI视频生成领域积累了独特的技术优势。
3/18/2025 11:35:00 AM
AI在线
微软团队推多模态AI模型Magma:整合视觉、语言和动作决策技能
近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。 这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。 随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。
2/20/2025 9:30:00 AM
AI在线
智谱AI:Agentic GLM全面登陆三星Galaxy S25系列
2025年2月11日,北京智谱华章科技有限公司宣布,其研发的Agentic GLM全面登陆三星最新款手机Galaxy S25系列。 这一合作标志着全球首款支持多模态AI交互的智能手机正式推向市场,为用户带来了前所未有的智能体验。 智谱华章自2023年4月开启Agent智能体相关研究,并于2024年10月推出首个Agent产品AutoGLM,率先提出Phone Use理念。
2/12/2025 8:59:00 AM
AI在线
DeepSeek深夜再放大招,发布全新多模态大模型Janus-Pro
国产大模型DeepSeek发布了全新的Janus-Pro多模态大模型,正式进军文生图领域。 这一举动标志着DeepSeek在多模态AI技术上的重大突破。 在GenEval和DPG-Bench基准测试中,Janus-Pro-7B不仅击败了OpenAI的DALL-E3,还超越了Stable Diffusion、Emu3-Gen等热门模型。
2/9/2025 8:59:26 AM
AI在线
消息称阿里引入顶级人工智能科学家 或将加码AI To C业务
近期,阿里巴巴在AI领域迎来了一位重量级人物。 据业内人士透露,一位全球顶级人工智能科学家已于近期正式入职阿里巴巴,未来或将专注于AI To C业务的基础大模型研发与应用。 这位科学家在工业界和学术界均拥有超过20年的经验,尤其在多模态AI领域成果丰硕,曾主导发表过上百篇大模型顶级论文。
2/4/2025 2:08:00 PM
AI在线
资讯热榜
告别抽卡!Vidu Q2多图参考生视频功能重磅上线
最强OCR竟然不是DeepSeek、Paddle!HuggingFace新作:六大顶尖开源OCR模型横评!继DS后又杀出匹黑马!
切斯基:Airbnb 暂缓接入 ChatGPT,AI 客服已用上通义千问
独立开源大佬的疯狂实验:Claude Code蛮力出奇迹!40 分钟跑通 DeepSeek-OCR,我一行代码都没写
OpenAI、Oracle 再加码 AI 基建:150亿美元 Lighthouse 园区启动建设
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
AI赋能,重塑零售:详解零售巨头塔吉特的业务转型策略
OpenAI 内部警示:ChatGPT Atlas 面临“即时注入”安全威胁
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
芯片
AI for Science
Agent
腾讯
Stable Diffusion
苹果
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
人形机器人
研究
RAG
AI视频
生成
大语言模型
Sora
工具
百度
具身智能
GPU
华为
计算
字节跳动
AI设计
搜索
AGI
大型语言模型
视频生成
场景
深度学习
架构
DeepMind
编程
生成式AI
视觉
预测
Transformer
AI模型
伟达
特斯拉
Copilot