AI在线 AI在线

理论

机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型,入选ICML2025 Spotlight

从 2023 年的 Sora 到如今的可灵、Vidu、通义万相,AIGC 生成式技术的魔法席卷全球,打开了 AI 应用落地的大门。 无独有偶,AIGC 生成式技术同样在具身智能机器人大模型上带来了惊人的表现。 “给我盛一碗热腾腾的鸡汤”,以前这句话能带给你一个温暖感人、栩栩如生的视频。
5/7/2025 1:48:48 PM
机器之心

OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!

王鸿儒目前就读于香港中文大学博士四年级 (预计今年7月毕业),导师为黄锦辉教授,研究方向主要包括对话系统,工具学习以及大语言模型智能体等,英国爱丁堡大学和美国伊利诺伊大学香槟分校(UIUC)访问学者,在国际顶级会议如NeurIPS, ACL, EMNLP等发表30余篇相关论文,其中包括10多篇一作或共一论文,代表工作有Cue-CoT, SAFARI, AppBench, Self-DC, OTC等,谷歌学术引用超600次,NeurIPS Area Chair以及多个国际顶级会议审稿人,NICE社区初创成员,曾获得国际博士生论坛最佳论文奖,ACL 2024@SIGHAN 最佳论文奖,WWW2024 Online Safety Prize Challenge冠军等多项荣誉。 Agent 即一系列自动化帮助人类完成具体任务的智能体或者智能助手,可以自主进行推理,与环境进行交互并获取环境以及人类反馈,从而最终完成给定的任务,比如最近爆火的 Manus 以及 OpenAI 的 o3 等一系列模型和框架。 强化学习(Reinforcement Learning)被认为是当下最具想象力、最适合用于 Agent 自主学习的算法。
5/7/2025 1:47:43 PM
机器之心

搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

本周三,知名 AI 创业公司,曾发布「全球首个 AI 软件工程师」的 Cognition AI 开源了一款使用强化学习,用于编写 CUDA 内核的大模型 Kevin-32B。 Kevin-32B 基于 QwQ-32B 在 KernelBench 数据集上使用 GRPO 进行了多轮强化学习训练,实现了超越 o3 和 o4-mini 的顶级推理表现。 对此,机器学习社区表现出了极大的兴趣。
5/7/2025 1:46:34 PM

公开模型一切,优于DeepSeek-R1,英伟达开源Llama-Nemotron家族

在大模型飞速发展的今天,推理能力作为衡量模型智能的关键指标,更是各家 AI 企业竞相追逐的焦点。 但近年来,推理效率已成为模型部署和性能的关键限制因素。 基于此,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。
5/7/2025 10:12:52 AM
机器之心

英伟达提出最强「描述一切」模型 (DAM),可生成图像或视频特定区域的详细描述,拿下7个基准SOTA!

英伟达提出「描述一切」模型 (DAM),这是一个强大的多模态大型语言模型,可以生成图像或视频中特定区域的详细描述。 用户可以使用点、框、涂鸦或蒙版来指定区域,DAM 将提供这些区域的丰富且符合上下文的描述。 相关链接论文::::详细的本地化图像和视频字幕详细本地化字幕 (DLC)详细局部字幕 (DLC) 的任务是生成图像中特定区域的全面且情境感知的描述。
5/7/2025 10:10:36 AM

南洋理工 & 牛津 & 新加坡理工提出Amodal3R,可从遮挡 2D 图像重建完整 3D 资产,3D生成也卷起来了!

Amodal3R 是一种条件式 3D 生成模型,能够从部分可见的 2D 物体图像中推测并重建完整的 3D 形态和外观,显著提升遮挡场景下的 3D 重建质量。 给定图像中 部分可见的物体,Amodal3R 重建具有合理几何形状和合理外观的语义上有意义的 3D 资产。 相关链接论文:::即将开放...模型:: 的示例结果。
5/7/2025 10:09:49 AM
AIGC Studio

掷30亿美元,OpenAI史上最大收购案!

OpenAI史上最大一笔收购即将敲定。 彭博爆料称,OpenAI将豪掷30亿美元,吞并了爆火编码神器Windsurf(前身为Codeium)。 此前,早有外媒曝出了这笔交易,目前离最终达成接近尾声。
5/7/2025 10:09:28 AM
新智元

Gemini 2.5 Pro再更新!编程能力屠榜!一句话、一张草图变应用

出品 | 51CTO技术栈(微信号:blog51cto)AI 编码模型的新王者登基了! 今天,Google 旗下的 DeepMind AI 研究部门正式发布了 Gemini 2.5 Pro “I/O” 版,这是今年 3 月推出的 Gemini 2.5 Pro 多模态大语言模型(LLM)的更新版本。 DeepMind CEO Demis Hassabis 在 X 上表示:“这是我们迄今为止打造的最佳编码模型!
5/7/2025 10:09:08 AM

刚刚,Gemini 2.5 Pro升级,成编程模型新王

你的默认编程模型是什么? 或许可以换一换了。 刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。
5/7/2025 10:01:35 AM

微软正式开源UFO²,Windows桌面迈入「AgentOS 时代」

本论文第一作者为微软 DKI 团队的 Chaoyun Zhang,其为 Windows 平台首个智能体系统 ——UFO 的核心开发者,该项目已在 GitHub 上开源并获得约 7,000 Stars,在社区中引发广泛关注。 同时,他也是一篇超过 90 页的 GUI Agent 综述文章的主要撰写者,系统梳理了该领域的关键进展与技术框架。 其余项目的主要贡献者亦均来自微软 DKI 团队,具备深厚的研究与工程背景。
5/7/2025 9:16:00 AM

谷歌突发大招刷爆AI编程榜!网友:不用买Cursor了

因为大家太过热情, Gemini 2.5提前重磅更新——史上最强编码模型Gemini 2.5 Pro Preview的I/O版。 只需一张手绘的草图,就可以构建一个「绘图变音频」的网页版应用。 其他游戏、对象模拟等等也都可以通过一句提示完全搞定。
5/7/2025 9:14:26 AM

AI再破2000年前「上古卷轴」!古希腊著作原文首次重见天日

AI再建一功! 火山灰掩埋的古代智慧,正在被AI一点点复活。 2025年5月6日,维苏威挑战赛(Vesuvius Challenge)迎来历史性突破——研究人员首次非侵入性地读取了仍然卷着的编号为PHerc.
5/7/2025 9:14:00 AM

ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键

大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。 近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要现象:在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值,而在值 (V) 表示中却没有这种模式。 这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在,对我们理解 LLM 内部工作机制具有重要意义。
5/7/2025 9:12:00 AM

GPT-4o图像生成的「核燃料」找到了!万字长文拆解潜在变量,网友:原来AI在另一个维度作画

上个月, GPT-4o 的图像生成功能爆火,掀起了以吉卜力风为代表的广泛讨论,生成式 AI 的热潮再次席卷网络。 而在这股浪潮背后,潜在空间(Latent Space)作为生成模型的核心驱动力,点燃了图像与视频创作的无限想象。 知名研究者 Andrej Karpathy 最近转发了一篇来自 Google DeepMind 研究科学家 Sander Dielman 的博客文章,探讨了生成模型(如图像、音频和视频生成模型)如何通过利用潜在空间来提高生成效率和质量。
5/7/2025 9:06:00 AM

微软将大量AI功能、智能体集成在Windows11,全民AI时代来了

今天凌晨,微软在官网发布了以AI为主题的新版Windows 11。 本次集成的AI功能非常多,涵盖搜索、设置、文件管理、画图、截图、Copilot等,同时还推出了以Copilot PC为主的全新Surface商务笔记本。 下面「AIGC开放社区」将根据官方内容为大家详细解读这些功能。
5/7/2025 9:01:00 AM

H-MBA层次化MamBa模型如何突破自动驾驶视频理解瓶颈?这三大创新亮点揭示答案!

一眼概览:H-MBA (Hierarchical MamBa Adaptation) 提出了一个创新的多模态视频理解框架,通过结合高低时域分辨率,显著提升了自动驾驶场景中的视频理解和风险物体检测性能。 核心问题:现有的多模态大语言模型(MLLMs)在处理自动驾驶中复杂的时空动态视频时,性能有限。 特别是在捕捉背景变化、车辆和行人运动等方面,现有方法难以做到准确的时空理解。
5/7/2025 8:49:17 AM
萍哥学AI

RAG 中的语义分块:实现更优的上下文检索

检索增强生成(RAG)技术异军突起,席卷了整个大语言模型领域。 通过将大语言模型(LLMs)的强大能力与外部知识检索相结合,RAG使得模型能够生成准确且有依据的回复,即便在专业领域也不例外。 在每一个表现卓越的RAG流程背后,都有一个默默发挥关键作用的 “英雄”:分块技术,尤其是语义分块。
5/7/2025 8:35:11 AM
大模型之路

SmallRye大模型简介:使用Langchain4J轻松向应用内引入AI服务

译者 | 核子可乐审校 | 重楼Langchain4J解决了哪些问题? Langchain4J 本质上是为 Java 开发者打造的工具箱,旨在简化向高级语言中集成 AI 功能(如聊天机器人或文本生成器)的过程,同时屏蔽底层复杂细节。 想象一下:我们想要构建一个能回答问题、生成内容或模拟人类对话的智能应用。
5/7/2025 8:14:58 AM
核子可乐