多模态AI
MiniMax重磅发布视频Agent工具:一句话生成高清视频,人脸ID还能完美一致!
近日,MiniMax公司推出了一款令人瞩目的视频Agent工具,为视频生成技术带来了全新突破。 这款工具不仅支持通过简单文本指令生成完整视频,还能通过上传人脸图片实现视频中人物身份的精准一致性,展现了MiniMax在多模态AI领域的强大实力。 一句话生成高清视频,创作效率飙升MiniMax的视频Agent工具主打文本到视频的生成能力,用户只需输入一句描述性文本提示,例如“夕阳下的海滩上,一辆复古跑车疾驰而过”,即可快速生成一段高清视频(720p分辨率,25帧/秒)。
6/20/2025 11:01:11 AM
AI在线
多模态AI席卷网络,DeepMind Veo 3与GPT-4o引领增长新引擎
近年来,多模态AI技术以其强大的跨领域能力,逐渐成为科技行业的增长引擎。 谷歌DeepMind最新发布的Veo3模型以及OpenAI的GPT-4o,通过结合文本、图像、视频甚至音频的生成能力,不仅提升了用户体验,还在全球范围内引发了广泛关注和流量激增。 以下,AIbase将为您梳理来自网络的最新信息,深入剖析多模态AI如何推动技术与商业的双重突破。
6/18/2025 10:01:54 AM
AI在线
NVIDIA放大招!Llama-Nemotron-Nano-VL-8B-V1发布,图像视频文本全能,微调王座谁与争锋?
人工智能领域的竞争日趋白热化,NVIDIA再次以其强大的技术实力引领潮流。 AIbase从社交媒体平台获悉,NVIDIA最新发布了Llama-3.1-Nemotron-Nano-VL-8B-V1,一款支持图像、视频和文本输入的视觉到文本模型,输出高质量文本并具备图像推理能力。 这一模型的发布不仅展示了NVIDIA在多模态AI领域的雄心,也为开发者提供了高效的轻量化解决方案。
6/5/2025 3:00:55 PM
AI在线
国内首个多模态AI程序员正式上岗 文心快码Coding智能体Zulu正式发布
2025年4月25日,百度Create AI开发者大会在北京隆重举行。 在这场备受瞩目的科技盛会中,百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体,标志着AI编程工具进入了一个全新的发展阶段。 在本次大会上,百度工程效能部总监臧志表示,AI是百度提升工程效率最重要的生产力来源,智能体是大模型能力与研发生产力之间最关键的桥梁。
4/27/2025 6:00:38 PM
AI在线
Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆
近日,Moonshot AI正式宣布推出Kimi-Audio,一款全新的开源音频基础模型,旨在推动音频理解、生成和交互领域的技术进步。 这一发布引发了全球AI社区的广泛关注,被认为是多模态AI发展的重要里程碑。 以下是对Kimi-Audio核心特性、性能表现及行业影响的全面报道。
4/27/2025 10:00:49 AM
AI在线
Grok大更新!视觉能力、多语言音频处理与实时搜索功能震撼上线
由xAI打造的生成式人工智能聊天机器人Grok迎来了一次里程碑式的更新,其功能全面升级,不仅新增了视觉处理能力,还实现了多语言音频处理以及语音模式下的实时搜索功能。 这一更新标志着Grok在多模态AI领域的重大突破,为用户提供了更智能、更便捷的交互体验。 以下,AIbase将为您详细解析此次更新的亮点与意义。
4/23/2025 9:00:42 AM
AI在线
苹果与索邦大学联合研究:早期融合与稀疏架构助力多模态 AI 发展
在多模态人工智能(AI)领域,苹果公司的工程师们与法国索邦大学的研究团队合作,展开了一项重要研究。 近日,科技媒体 marktechpost 发布了相关博文,探讨了早期融合与后期融合模型在多模态 AI 中的应用与前景。 研究表明,从头训练的早期融合模型在计算效率和可扩展性上更具优势。
4/16/2025 5:01:05 PM
AI在线
MiniMax MCP Server正式上线,开启多模态AI新纪元
人工智能技术的边界正在不断拓展。 AIbase从社交媒体获悉,中国AI初创公司MiniMax稀宇科技于近日宣布,其MiniMax MCP Server正式上线。 这一服务器通过简单的文本输入,即可调用视频生成、图像生成、语音生成及声音克隆等多项能力,并兼容多种主流MCP客户端,为开发者与创作者提供了强大的多模态AI工具。
4/15/2025 12:02:39 PM
AI在线
报道称OpenAI下周重磅发布GPT-4.1系列,包含Mini版和Nano版
人工智能领域的领跑者OpenAI即将在下周掀起新一波技术热潮!据科技媒体 The Verge 报道,OpenAI计划推出包括GPT-4.1系列、o3系列以及其他多款AI模型在内的重大更新。 这一波密集发布不仅彰显了OpenAI加速创新的雄心,也为行业带来了更强大的AI工具。 GPT-4.1系列:多模态能力的全面升级作为GPT-4.0的继任者,GPT-4.1系列被认为是OpenAI在多模态AI领域的又一力作。
4/13/2025 7:34:52 AM
AI在线
联想CTO:押注多模态AI协作,打造模型工厂加速智能体落地
在联想集团2025/26财年誓师大会上,首席技术官Tolga Kurtoglu强调,当前AI应用仍处于快速迭代的技术演示阶段,远未真正释放为用户创造价值的成熟能力。 他指出,未来AI发展的关键在于将技术转化为以用户为中心的解决方案,构建联想独特的差异化优势。 Kurtoglu描绘了未来以用户为中心的AI图景:它将不再受限于单一模型、芯片、设备或形态,而是由端侧、云端、边缘等多种模型和智能体协同运作,无缝地为用户提供服务。
3/31/2025 12:00:49 PM
AI在线
马斯克xAI收购视频生成初创公司Hotshot,AI视频领域竞争再升级
硅谷科技巨头的版图扩张再添新篇!埃隆·马斯克旗下的xAI公司今日宣布收购专注于视频生成AI技术的初创公司Hotshot,这一战略收购将为xAI在多模态AI技术领域注入新的活力。 Hotshot首席执行官Aakash Sastry在X平台上正式宣布了这一消息,但未透露具体的交易金额。 作为曾获得Reddit联合创始人Alexis Ohanian和SV Angel等知名投资方支持的新锐科技公司,Hotshot(正式名称为Natural Synthetics Inc.)在AI视频生成领域积累了独特的技术优势。
3/18/2025 11:35:00 AM
AI在线
微软团队推多模态AI模型Magma:整合视觉、语言和动作决策技能
近日,微软研究团队联合多所高校的研究人员,发布了一款名为 “Magma” 的多模态 AI 模型。 这款模型的设计旨在处理和整合图像、文本和视频等多种数据类型,以便在数字和物理环境中执行复杂任务。 随着科技的不断进步,多模态 AI 代理正在被广泛应用于机器人技术、虚拟助手和用户界面自动化等领域。
2/20/2025 9:30:00 AM
AI在线
智谱AI:Agentic GLM全面登陆三星Galaxy S25系列
2025年2月11日,北京智谱华章科技有限公司宣布,其研发的Agentic GLM全面登陆三星最新款手机Galaxy S25系列。 这一合作标志着全球首款支持多模态AI交互的智能手机正式推向市场,为用户带来了前所未有的智能体验。 智谱华章自2023年4月开启Agent智能体相关研究,并于2024年10月推出首个Agent产品AutoGLM,率先提出Phone Use理念。
2/12/2025 8:59:00 AM
AI在线
DeepSeek深夜再放大招,发布全新多模态大模型Janus-Pro
国产大模型DeepSeek发布了全新的Janus-Pro多模态大模型,正式进军文生图领域。 这一举动标志着DeepSeek在多模态AI技术上的重大突破。 在GenEval和DPG-Bench基准测试中,Janus-Pro-7B不仅击败了OpenAI的DALL-E3,还超越了Stable Diffusion、Emu3-Gen等热门模型。
2/9/2025 8:59:26 AM
AI在线
消息称阿里引入顶级人工智能科学家 或将加码AI To C业务
近期,阿里巴巴在AI领域迎来了一位重量级人物。 据业内人士透露,一位全球顶级人工智能科学家已于近期正式入职阿里巴巴,未来或将专注于AI To C业务的基础大模型研发与应用。 这位科学家在工业界和学术界均拥有超过20年的经验,尤其在多模态AI领域成果丰硕,曾主导发表过上百篇大模型顶级论文。
2/4/2025 2:08:00 PM
AI在线
谷歌押注多模态AI,BigQuery湖仓一体是核心支柱
根据多家调研机构的预测,未来几年,全球多模态AI市场的年增长率将超过35%,而谷歌正在积极布局,以期在这一蓬勃发展的市场中占据领先地位。 谷歌云计算部门最近宣称,将文本、图像、视频、音频和其他非结构化数据与生成式人工智能(GenAI)处理相结合的多模态AI,将成为2025年五大人工智能趋势之一。 BigQuery湖仓一体引领谷歌多模态AI战略谷歌负责数据、分析和人工智能战略的产品主管Yasmeen Ahmad表示,BigQuery数据仓库是谷歌多模态AI战略的核心支柱,公司正致力于将其重塑为能够整合并分析多样化数据类型的湖仓一体(Data Llakehouse)。
1/21/2025 5:02:14 PM
极客IT
多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级
编辑 | 白菜叶许多临床任务需要了解专业数据,例如医学图像、基因组学,这类专业知识信息在通用多模态大模型的训练中通常不存在。在上一篇论文的描述中,Med-Gemini 在各种医学成像任务上超越 GPT-4 系列模型实现了 SOTA!在这里,Google DeepMind 撰写了第二篇关于 Med-Gemini 的论文。在 Gemini 的多模态模型的基础上,该团队为 Med-Gemini 系列开发了多个模型。这些模型继承了 Gemini 的核心功能,并通过 2D 和 3D 放射学、组织病理学、眼科、皮肤病学和基因组
5/13/2024 3:58:00 PM
ScienceAI
- 1
资讯热榜
我国首个发电行业大模型“擎源”发布,模型参数达千亿级别
Bilibili开源动漫视频生成模型AniSora V3版,一键生成多种风格动漫视频镜头
Chai Discovery发布Chai- 2 模型:零样本抗体设计突破16-20%命中率
未来已来!Hengbot发布 Sirius 机器狗,能跳舞会踢球,还有AI陪聊
xAI控制台新增Grok4及Grok4Code引用,标志着下一代AI模型即将发布
不再单一依赖英伟达,消息称 OpenAI 首次采用谷歌 AI 芯片训练 ChatGPT
重磅!谷歌开源Gemma3n多模态模型,手机也能跑出云端AI性能
Gemini2.5Pro API 免费回归,开发者社区热烈响应
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
数据
机器人
大模型
Midjourney
用户
智能
开源
微软
Meta
GPT
学习
图像
技术
Gemini
AI创作
马斯克
论文
Anthropic
代码
英伟达
算法
Stable Diffusion
芯片
智能体
训练
开发者
生成式
腾讯
蛋白质
苹果
神经网络
3D
研究
生成
AI新词
Claude
机器学习
计算
LLM
Sora
AI设计
AI for Science
AI视频
GPU
人形机器人
xAI
百度
华为
搜索
大语言模型
场景
Agent
字节跳动
预测
深度学习
伟达
大型语言模型
工具
Transformer
视觉
RAG
神器推荐
模态
Copilot
亚马逊
具身智能
LLaMA
文本
算力
驾驶
API