三维视觉语言模型框架

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

这几天，家务活都被机器人抢着干了。前脚来自斯坦福的会用锅的机器人刚刚登场，后脚又来了个会用咖啡机的机器人 Figure-01 。只需给它观看示范视频，加上10个小时的训练，Figure-01 就能学会使用咖啡机，放咖啡胶囊到按下启动键，一气呵成。但是想要让机器人无师自通，第一次见到各式各样的家具家电，就能在没有示范视频的情况下熟练使用。这是个难以解决的问题，不仅需要机器人拥有强大的视觉感知、决策规划能力，更需要精确的操纵技能。现在，一个三维具身图文大模型系统为以上难题提供了新思路。该系统将基于三维视觉的精准几何感知

1/9/2024 2:49:00 PM

机器之心

资讯热榜

Cursor宣布免费向学生开放一年Pro会员，助力AI编程教育大BUG！非学生用户竟能白嫖谷歌顶级AI全家桶白嫖攻略速看保姆级教程：零代码基础也能微调Qwen3，并本地部署英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2，语音转录能力再提升应对网络威胁利器！Cisco与Meta推出Foundation-sec-8B LLM Excel MCP Server上线可通过Claude等客户端直接操作Excel文件 Figma重磅升级：发布五大新功能，Figma Sites支持一键发布网站字节跳动开源深度研究框架DeerFlow

标签云

人工智能 OpenAI AI AIGC ChatGPT AI绘画 DeepSeek 模型机器人数据谷歌大模型 Midjourney 智能用户开源学习微软 GPT Meta 图像 AI创作技术 Gemini 论文马斯克 Stable Diffusion 算法芯片代码蛋白质生成式英伟达腾讯神经网络研究 Anthropic 计算 3D 开发者 Sora AI设计机器学习 AI for Science GPU AI视频苹果场景华为人形机器人百度预测伟达搜索 Claude Transformer 深度学习 xAI 大语言模型字节跳动模态训练具身智能驾驶神器推荐文本 LLaMA Copilot 视觉算力应用安全智能体视频生成干货合集亚马逊大型语言模型 API 科技 AGI