CV

万字长文实录：RL 界与 CV 界的“世界模型”有什么不同？丨GAIR Live

万字长文实录：RL 界与 CV 界的“世界模型”有什么不同？丨GAIR Live

世界模型在人工智能领域中扮演着重要角色，能够有效为智能体提供对复杂现实世界的内在表征，使其像人类一样理解世界运行的逻辑与因果关系，对自动驾驶、具身智能的突破性发展至关重要，它已成为学术界和工业界的研究热点。圆桌主持人为清华大学智能产业研究院（AIR）助理教授、智源学者赵昊，并邀请了宁波东方理工大学助理教授金鑫、浙江大学特聘研究员廖依伊、布里斯托大学助理教授杨梦月、伯克利人工智能实验室博士后研究员郑文钊一起进行了一场深度的讨论。会上主持人赵昊带头讨论世界模型，先是探讨其定义、范围，接着分析强化学习界与计算机视觉界的世界模型的不同，随后围绕视频生成、三维重建等内容，剖析通用视频生成模型向真正的世界模型的发展路径，最后关注于落地场景，聚焦于自动驾驶以及具身智能，并探讨构建其世界模型的难点和方向。

9/8/2025 5:11:00 PM 刘欣

摩尔线程开源 OpenCV-MUSA：支持绝大部分 cv::cuda 命名空间下数据结构及 API

摩尔线程开源 OpenCV-MUSA：支持绝大部分 cv::cuda 命名空间下数据结构及 API

感谢摩尔线程宣布其自研统一系统架构 MUSA 已完成与开源计算机视觉库 OpenCV 的适配，并正式发布 OpenCV-MUSA 开源项目。OpenCV 作为计算机视觉领域最重要的开源库之一，为图像和视频处理的开发者和研究人员提供了强大且灵活的工具。OpenCV 在自动驾驶、医疗影像、安防监控、机器人视觉、增强现实和图像识别等多个领域得到广泛应用。在现有 OpenCV 代码的基础上，摩尔线程新增了 MUSA 设备后端，并为多个算法模块提供了 MUSA 加速支持，同时对编译脚本也进行了适配。目前 OpenCV-MUS

9/20/2024 5:28:01 PM 沛霖（实习）

Creator 面对面 | 大模型的最后一公里路“不太平”

Creator 面对面 | 大模型的最后一公里路“不太平”

自 2018 年谷歌推出 BERT 以来，语言模型就开始朝着「大模型」的方向演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。

7/19/2022 3:44:00 PM SOTA模型

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉