VLA
万字实录:VLA 范式,具身智能的曙光与迷雾丨GAIR Live
整理丨赖文昕编辑丨陈彩娴VLA(视觉-语言-动作模型)作为具身智能领域的关键新范式,能有效整合视觉信息、语言指令与行动决策,显著提升机器人对复杂环境的理解和适应能力,对推动机器人从单一任务执行向多样化场景自主决策的跨越至关重要 ,已成为当下学术界和工业界炙手可热的研究焦点。 圆桌主持人为北京大学计算机学院助理教授、智源学者仉尚航,并邀请了清华大学交叉信息院助理教授、千寻智能联合创始人高阳,清华大学交叉信息院助理教授、星海图联合创始人赵行,与北京大学人工智能研究院助理教授、北大-灵初智能联合实验室主任杨耀东一起进行了一场深度的讨论。 会上,主持人仉尚航带领讨论 VLA,先是探讨其定义、起源及相关模型区别;接着分析技术路线与新成果,探讨不同路线的优缺点;随后围绕机器人常见任务,剖析核心技术瓶颈与主流输出范式;还研究强化学习结合、泛化能力提升、异构数据利用与协同训练;最后关注落地场景,并探讨执行长程任务的难点与可能。
6/3/2025 2:22:00 PM
赖文昕
理想汽车李想宣布 AI Talk 第二季:探讨人工智能的未来与发展
理想汽车创始人兼 CEO 李想在社交平台上宣布,《AI Talk 第二季》将于5月7日晚上8点正式上线。 在这一季中,他将与观众分享自己对人工智能最新的思考,尤其是理想 VLA 司机大模型的创新理念。 李想表示,VLA 司机大模型不仅是技术的结晶,更是生物进化的延续,从动物智能到人类智慧的跃迁。
5/7/2025 9:00:53 AM
AI在线
阿德莱德大学吴琦:VLN 仍是 VLA 的未竟之战丨具身先锋十人谈
作者 | 赖文昕编辑 | 陈彩娴2018 年 6 月,在澳大利亚机器人视觉研究中心(ACRV)做博士后研究员的吴琦和博士生 Peter Anderson 首次将 VL(视觉-语言)和彼时机器人领域主流的导航方向联系起来,在 CVPR 2018 发表了第一篇 VLN(视觉-语言-导航)工作;紧接着,Abhishek Das 作为一作发表的“EmbodiedQA(具身问答)”又让“Embodied”一词走入科研视野。 一个月后,一年一度的 NLP 领域顶会 ACL 在冬季的墨尔本召开。 在火热的会场里,吴琦、Peter Anderson 和 Abhishek Das 举办了一场题为“将语言和视觉与动作联系起来” 的 tutorial,真正地开启了 VLA(视觉-语言-动作)这个全新领域。
4/29/2025 4:21:00 PM
赖文昕
Figure机器人进厂打工,8小时速成物流分拣大师!自研VLA模型全面升级
踹掉OpenAI之后,Figure的迭代堪称神速! 几天前才发布了第一款自研视觉-语言-动作(VLA)模型Helix,统一了感知、语言理解和学习控制。 就在刚刚,他们又在一个全新场景中实现了机器人应用的落地——物流包裹操作和分拣。
2/27/2025 12:12:28 PM
新智元
京东联合地瓜机器人等多家企业高校,推出业内首个具身智能原子技能库架构
具身智能技术突破与应用是通向 AGI 的必经之路,目前全球科技公司正加速布局,包括特斯拉 Optimus、Agility Digit、波士顿动力 Atlas 及 Figure AI 等,今年蛇年春晚机器人“扭秧歌”也成为了人们茶余饭后的谈资。 随着大模型技术的进步,具身智能也迎来了快速的发展。 但在国内众多企业与高校推动相关技术发展的过程中,核心挑战仍在于具身操作泛化能力,即如何在有限具身数据下,使机器人适应复杂场景并实现技能高效迁移。
2/20/2025 10:09:00 AM
新闻助手
VLA 技术引领智驾竞赛,英伟达助力黑马企业迅速抢占市场份额
在智能驾驶行业,2025年被视为 “VLA 上车元年”,这标志着一种全新的技术范式正在崭露头角。 VLA,即视觉语言动作模型(Vision-Language-Action Model),最初由 DeepMind 于2023年提出,旨在提升机器人对环境的理解和反应能力。 近年来,这一技术在自动驾驶领域受到了极大的关注。
1/25/2025 4:26:00 PM
AI在线
- 1
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊