多模态大模型
共同阶跃星辰与原力灵机达成战略合作
阶跃星辰与原力灵机在北京签署了战略合作协议,双方将利用各自的技术优势,在多模态大模型技术、智能终端 Agent 和具身智能场景方面展开深入合作。 此次合作的目标是实现 “实现在物理世界的推理”,共同开发一种名为 “RoboAgent” 的智能机器人,推动通用人工智能(AGI)在实际应用中的落地。 签约仪式上,阶跃星辰的创始人兼 CEO 姜大昕博士和原力灵机的联合创始人范浩强共同见证了这一重要时刻。
4/24/2025 2:00:46 PM
AI在线
上海人工智能实验室推出升级版多模态大模型 “书生・万象 3.0”
在人工智能迅速发展的今天,上海人工智能实验室再次引领潮流,推出了全新的多模态大模型 “书生・万象3.0”。 这一升级版本不仅在技术上进行了全面提升,还在多模态预训练和后训练方法的加持下,展现出了更强大的基础能力和应用潜力。 “书生・万象3.0” 具备同时处理文本和多种多模态输入的能力,这使得它在多个应用场景中都能表现出色。
4/17/2025 2:01:15 PM
AI在线
多榜单登顶!华为 & 哈工深团队提出 AdaReTaKe,突破长视频理解极限
第一作者为哈尔滨工业大学(深圳)博士生王霄和华为大模型研究员佀庆一,该工作完成于王霄在华为实习期间。 王霄的研究方向为多模态视频理解和生成,佀庆一的研究方向为多模态理解、LLM post-training和高效推理。 随着视频内容的重要性日益提升,如何处理理解长视频成为多模态大模型面临的关键挑战。
4/4/2025 1:39:00 PM
机器之心
百度发布文心4.5与X1大模型,价格大幅降低引关注
近日,百度正式推出其最新的文心大模型4.5及文心大模型 X1,用户可在文心一言官网免费体验这两款先进的模型。 文心4.5是百度首个原生多模态大模型,专注于多模态理解和逻辑推理,其性能在多项基准测试中超越了 GPT-4.5,API 调用价格仅为后者的1%。 这一显著的价格优势,无疑会吸引更多开发者和企业的关注。
3/16/2025 11:35:00 AM
AI在线
阿里巴巴推出AI旗舰应用“新夸克” 全面升级为“AI超级框”
3月13日,阿里巴巴正式推出其AI旗舰应用——新夸克。 这款全新升级的夸克基于阿里通义领先的推理及多模态大模型,打造了一个无边界的“AI超级框”,为用户带来全新的AI体验。 新夸克的创新之处在于将AI对话、深度思考、深度搜索、深度研究和深度执行等功能整合到一个极简的“AI超级框”中,一站式满足用户多样化的需求。
3/13/2025 11:29:00 AM
AI在线
谷歌开源新一代多模态模型 Gemma-3:性能卓越、成本降低 10 倍
谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)在一场发布会上宣布,谷歌开源了最新的多模态大模型 Gemma-3,该模型以低成本、高性能为特点,备受关注。 Gemma-3提供了四种不同参数规模的选项,分别为10亿、40亿、120亿和270亿参数。 令人惊讶的是,最大参数的270亿模型只需一张 H100显卡即可高效推理,而同类模型往往需要十倍的算力,这使 Gemma-3成为目前算力要求最低的高性能模型之一。
3/13/2025 8:52:00 AM
AI在线
华为昇腾携手阶跃星辰推出开源多模态模型,进军 AI 新领域
近日,魔乐社区(Modelers)正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。 这两款模型分别用于视频生成和语音交互,旨在为开发者和企业用户提供更强大的 AI 工具。 Step-Video 模型的全名为 Step-Video-T2V,这是一款参数量高达300亿的全球最大开源视频生成模型。
3/10/2025 4:04:00 PM
AI在线
效果最佳!阶跃星辰开源Step-Video-T2V 视频生成模型
今日,阶跃星辰与吉利汽车集团宣布,联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。 其中,阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。 该模型拥有300亿参数量,能够直接生成204帧、540P分辨率的高质量视频,确保生成内容信息密度高、一致性强。
2/18/2025 8:55:00 AM
AI在线
当虹科技的BlackEye大模型与DeepSeek深度融合
近日,当虹科技宣布其 BlackEye 多模态视听大模型成功完成与 DeepSeek-R1和 DeepSeek Janus Pro 的深度融合。 这一里程碑式的进展标志着当虹科技在视听传媒、工业与卫星、车载智能座舱等多个行业的应用潜力将得到进一步释放。 随着科技的迅猛发展,多模态大模型正逐渐成为推动各行业创新的重要力量。
2/5/2025 3:25:00 PM
AI在线
几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的
试想一个场景,职场中接到一个香港客户的单子,但是在交付的过程中耽搁了时间,现在要进行线上沟通解释,那么你面对的情况大致是这样的:如果不对这段音频进行标注,可能大部分人会认为这一粤语、英语混用的片段是真实发生或从TVB电视剧里截出来的。 但其实,这是由 AI 完成的配音,背后所使用的工具是海螺语音。 今年 1 月,继 MiniMax 发布并开源基础语言大模型 MiniMax-Text-01 和视觉多模态大模型 MiniMax-VL-01 后,再次推出了升级的语音大模型 T2A-01 系列,搭载于海螺 AI 之上,开辟海螺语音板块。
1/22/2025 2:07:00 PM
王悦
决策过程是魔法还是科学?首个多模态大模型的可解释性综述全面深度剖析
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/15/2024 10:12:00 PM
机器之心
首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
9/21/2024 8:31:00 PM
机器之心
最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升
最近一段时间,生成式 AI 技术兴起,众多造车新势力都在探索视觉语言模型与世界模型的新方法,端到端的智能驾驶新技术似乎成为了共同的研究方向。上个月,理想汽车发布了端到端 VLM 视觉语言模型 世界模型的第三代自动驾驶技术架构。此架构已推送千人内测,将智能驾驶行为拟人化,提高了 AI 的信息处理效率,增强了对复杂路况的理解和应对能力。李想曾在公开的分享中表示,面对大部分算法难以识别和处理的罕见驾驶环境,VLM(Visual Language Model)即视觉语言模型可以系统地提升自动驾驶的能力,这种方法从理
8/6/2024 6:18:00 PM
李泽南
清华领衔发布多模态评估MultiTrust:GPT-4可信度有几何?
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]本工作由清华大学朱军教授领衔的基础理论创新团队发起。长期以来,团队着眼于目前人工智能发展的瓶颈问题,探索原创性人工智能理论和关键技术,在智能算法的对抗安全理论和方法研究中处于国际领先水平,
7/24/2024 2:22:00 PM
机器之心
华为云董理斌:做难事解难题,盘古大模型以“智”重塑千行万业
7 月 5 日,2024 世界人工智能大会暨人工智能全球治理高级别会议 —“盘古大模型重塑千行万业” 分论坛于上海世博中心举办。在 “盘古大模型做难事解难题,以‘智’重塑千行万业” 主题演讲中,华为云 Marketing 部部长董理斌向出席会议的百余名人工智能领域顶尖专家、业界领军人物分享了盘古大模型 5.0 的全新能力,以及盘古大模型深入高铁、钢铁、工业设计、建筑设计、气象等领域,重塑千行万业的应用进展。他表示,盘古大模型 5.0 通过更多的模态和更强的思维能力,重塑云服务,为开发者、客户和伙伴提供更强大、更丰富
7/5/2024 3:08:00 PM
新闻助手
国内首个!商汤科技发布“日日新5o”,实时多模态流式交互对标GPT-4o
2024 年 7 月 5 日,上海 ——2024 世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)战略合作伙伴商汤科技召开 “大爱无疆・向新力” 人工智能论坛,发布国内首个所见即所得模型 “日日新 5o”,交互体验对标 GPT-4o,实现全新 AI 交互模式。通过整合跨模态信息,基于声音、文本、图像和视频等多种形式,国内首个所见即所得模型 “日日新 5o” 带来一种全新的 AI 交互模式,即实时的流式多模态交互。现场也为大家展示了这种创新交互模式 ——工作人员刚开始仅是和 “日日新 5o” 打个招
7/5/2024 3:02:00 PM
新闻助手
联汇科技赵天成:从 CMU 天才少年,到多模态创业先行者
CMU LTI (卡内基梅隆大学语言技术研究所)每年在全球范围内只有十个左右的博士录取名额,其中的华人学者凤毛麟角。 本次以 OpenAI 发布 ChatGPT 为标志掀起的人工智能浪潮,CMU 也在各大主流 AI 公司中扮演了技术核心。 这群 CMU 中的华人学者,在中西争夺人工智能高地的竞争中,归国人才显得尤其弥足珍贵。
5/29/2024 10:36:00 AM
王悦
元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入
人类获取的信息83%来自视觉,图文多模态大模型能感知更丰富和精确的真实世界信息,构建更全面的认知智能,从而向AGI(通用人工智能)迈出更大步伐。 元象今日发布多模态大模型 XVERSE-V ,支持任意宽高比图像输入,在主流评测中效果领先。 该模型全开源,无条件免费商用 ,持续推动海量中小企业、研究者和开发者的研发和应用创新。
4/28/2024 12:09:00 PM
我在思考中
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
Gemini
马斯克
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
Claude
模态
字节跳动
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
亚马逊
科技
智能体
DeepMind
特斯拉