模型

ICRA 2025｜通用多机器人长时任务规划框架破解任务分配难题，成功率+105%、效率+36%

2025 年 5 月，美国加州大学河滨分校 (UC Riverside) 与宾夕法尼亚州立大学 (Penn State University) 联合团队在机器人领域顶级会议 ICRA 2025 上发布最新研究成果 LaMMA-P（Generalizable Multi-Agent Long-Horizon Task Allocation and Planning with LM-Driven PDDL Planner）。 LaMMA-P 首次将大型语言模型与 PDDL 规划器深度融合，解决了异构多机器人系统中长时任务的自动分解与分配难题，大幅提升多机器人协同规划的智能水平。该技术在全新基准数据集上经过大量模拟实验验证，相比现有最先进方法 SMART-LLM，任务成功率提高 105%，执行效率提升 36%，在复杂长程任务规划上取得了突破性进展，为异构多机器人协同完成复杂任务提供了全新解决方案。

5/21/2025 8:52:00 AM

ICML 2025 Spotlight | 多模态大模型暴露短板？EMMA基准深度揭秘多模态推理能力

「三个点电荷 Q、-2Q 和 3Q 等距放置，哪个向量最能描述作用在 Q 电荷上的净电力方向？」在解这道题时，我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型，如 GPT-4o，也可能在理解「同性相斥」的基本物理原则时，错误地判断斥力的方向（例如，错误地将 3Q 对 Q 的斥力方向判断为右下方而非正确的左上方）。

5/21/2025 8:47:00 AM

代码、多模态检索全面登顶SOTA！智源BGE向量模型三连击，并全面开放

检索增强技术在代码及多模态场景中的发挥着重要作用，而向量模型是检索增强体系中的重要组成部分。针对这一需求，近日，智源研究院联合多所高校研发了三款向量模型，包括代码向量模型 BGE-Code-v1，多模态向量模型 BGE-VL-v1.5 以及视觉化文档向量模型 BGE-VL-Screenshot。这些模型取得了代码及多模态检索的最佳效果，并以较大优势登顶 CoIR、Code-RAG、MMEB、MVRB 等领域内主要测试基准。

5/21/2025 8:35:00 AM

英伟达推出人形机器人新模型，助力工业革命新篇章

英伟达首席执行官黄仁勋宣布推出最新的人形机器人基础模型 ——Isaac GR00T N1.5。此次发布标志着英伟达在机器人开发基础设施上迈出了重要的一步，黄仁勋表示，这一模型将成为 “下一代工业革命的核心构建模块”。 GR00T N1.5模型的一个显著优势是其训练效率的显著提升。

5/20/2025 6:00:45 PM

AI在线

谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

近期，谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作，开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调（RLFT）技术，旨在提升语言模型的决策能力。这项研究的重点在于，通过思维链的强化训练，解决了模型在决策过程中存在的一些关键问题。

5/20/2025 6:00:45 PM

AI在线

手机流畅处理128K长文本，vivo端侧新算法突破内存限制 | ACL 2025

在端侧设备上处理长文本常常面临计算和内存瓶颈。 vivo AI研究院推出的EdgeInfinite算法专为端侧设备设计，让设备处理超长文本时更加高效流畅，该方法能够在不到10GB GPU内存的设备上处理长达128K tokens的输入。该研究成果已中稿ACL 2025。

5/20/2025 3:14:39 PM

多模态检索大升级！智源三大SOTA模型，代码、图文理解能力拉满

检索增强技术在代码及多模态场景中的发挥着重要作用，而向量模型是检索增强体系中的重要组成部分。针对这一需求，近日，智源研究院联合多所高校研发了三款向量模型，包括代码向量模型BGE-Code-v1，多模态向量模型BGE-VL-v1.5以及视觉化文档向量模型BGE-VL-Screenshot。这些模型取得了代码及多模态检索的最佳效果，并以较大优势登顶CoIR、Code-RAG、MMEB、MVRB等领域内主要测试基准。

5/20/2025 1:02:23 PM

新智元

全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

最近，一项来自 MIT CSAIL、哥廷根大学、IBM 研究所等机构的研究团队提出了一个名为 Omni-R1的全新音频问答模型。该模型在 Qwen2.5-Omni 的基础上，通过一种名为 GRPO（Group Relative Policy Optimization）的强化学习方法进行优化，显示出在音频问答任务中的出色表现。 Omni-R1在著名的 MMAU 基准测试中创造了新的最先进成绩，涵盖了声音、语音和音乐等多个音频类别。

5/20/2025 12:00:55 PM

AI在线

字节提出从单一主题发展到多主题定制的通用框架UNO，通过情境生成释放更多可控性

字节跳动的智能创作团队提出了一个从单一主题发展到多主题定制的通用框架UNO，从少到多的泛化：通过情境生成释放更多可控性。能够将不同的任务统一在一个模型下。在单主题和多主题驱动的生成中都能实现高度一致性，同时确保可控性。

5/20/2025 9:13:45 AM

AIGC Studio

谢赛宁团队提出BLIP3-o：融合自回归与扩散模型的统一多模态架构，开创CLIP特征驱动的图像理解与生成新范式!

BLIP3-o 是一个统一的多模态模型，它将自回归模型的推理和指令遵循优势与扩散模型的生成能力相结合。与之前扩散 VAE 特征或原始像素的研究不同，BLIP3-o 扩散了语义丰富的CLIP 图像特征，从而为图像理解和生成构建了强大而高效的架构。此外还发布了包含 2000 万张带详细标题的图片（BLIP3o Pretrain Long Caption）和 400 万张带短标题的图片（BLIP3o Pretrain Short Caption）的数据集。

5/20/2025 9:08:59 AM

震撼全网，AlphaEvolve矩阵乘法突破被证明为真！开发者用代码证实

就在刚刚，有人用Claude写代码证实——谷歌DeepMind的AlphaEvolve求解矩阵乘法的突破，100%正确！即使已经过去好几天，AI圈依然有许多人沉浸在这个AI的余震中。在时隔半个世纪（56年）后，AlphaEvolve将4×4的复数矩阵计算次数，从1969年Strassen的49次减少到了48次。

5/20/2025 9:07:00 AM

英伟达新“桌面超算”800GB大内存，满血DeepSeek R1能装1个半

英伟达官宣新办公室落户中国台湾省台北市，但居然是从太空飞下来的吗？当然，这只是黄仁勋在Computex大会上展示的CG特效，但背后还有这样一层意思：如此逼真的画面中，只有1/10的像素是显卡渲染的，剩下全部内容为AI预测。当初是GeForce显卡让AI成为现实，现在AI反过来给GeForce显卡带来颠覆性变革。

5/20/2025 9:02:00 AM

Poe2025春季AI模型使用趋势报告：OpenAI与Anthropic双雄争霸可灵异军突起

全球知名AI模型集成平台Poe发布《2025春季AI模型使用趋势报告》，基于平台上数百万次用户交互，深入分析了文本、图像、视频、音频和推理模型的需求与使用份额变化。报告揭示了今年以来OpenAI GPT-4.1、Google Gemini2.5Pro、Kuaishou Kling等突破性模型的快速崛起，以及AI使用模式的深刻转变。 AIbase综合最新动态，独家解读这一报告的核心亮点及其对AI生态的深远影响。

5/19/2025 5:00:45 PM

AI在线

AI生成视频总不符合物理规律？匹兹堡大学团队新作PhyT2V：不重训练模型也能让物理真实度狂飙2.3倍！

本文由匹兹堡大学智能系统实验室（Intelligent Systems Laboratory）的研究团队完成。第一作者为匹兹堡大学的一年级博士生薛琪耀。当前文本生成视频（T2V）技术正在从注重视觉质量与模型规模的扩展阶段，迈向更关注物理一致性与现实合理性的推理驱动阶段。

5/19/2025 3:00:38 PM

全新GPU高速互联设计，为大模型训练降本增效！北大/阶跃/曦智提出新一代高带宽域架构

随着大模型的参数规模不断扩大，分布式训练已成为人工智能发展的中心技术路径。如此一来，高带宽域的设计对提升大模型训练效率至关重要。然而，现有的HBD架构在可扩展性、成本和容错能力等方面存在根本性限制：以交换机为中心的HBD（如NVIDIA NVL-72）成本高昂、不易扩展规模；以GPU为中心的HBD（如 Google TPUv3和Tesla Dojo）存在严重的故障传播问题；TPUv4等交换机-GPU混合HBD采用折中方案，但在成本和容错方面仍然不甚理想。

5/19/2025 2:57:44 PM

参数量暴降，精度反升！哈工大宾大联手打造点云分析新SOTA

新架构选择用KAN做3D感知，点云分析有了新SOTA！来自哈尔滨工业大学（深圳）和宾夕法尼亚大学的联合团队最近推出了一种基于Kolmogorov-Arnold Networks(KANs)的3D感知解决方案——PointKAN，在处理点云数据的下游任务上展现出巨大的潜力。 △PointKAN与同类产品的比较替代传统的MLP方案，PointKAN具有更强的学习复杂几何特征的能力。

5/19/2025 2:56:45 PM

Qwen发布全新偏好建模模型系列WorldPM模型

阿里巴巴旗下Qwen团队宣布推出全新偏好建模模型系列——WorldPM，包括WorldPM-72B及其衍生版本WorldPM-72B-HelpSteer2、WorldPM-72B-RLHFLow和WorldPM-72B-UltraFeedback。这一发布引发了全球AI开发者社区的广泛关注，被认为是偏好建模领域的重要突破。 WorldPM:偏好建模的规模化新探索WorldPM（World Preference Modeling）是Qwen团队在偏好建模领域的最新力作。

5/19/2025 11:01:05 AM

AI在线

阿里通义实验室推出 ZeroSearch：让大模型无需 API 自我 “搜索”

在人工智能的迅速发展中，如何提升大语言模型（LLM）的检索和推理能力成为研究的热门话题。近日，阿里通义实验室提出了一个名为 “ZeroSearch” 的新框架，它能够使大型语言模型自己模拟搜索引擎，从而在没有实际搜索引擎的情况下，提升其推理能力。传统的搜索引擎虽然强大，但在训练大模型时，它们的输出质量常常不可预测，可能导致训练过程中的噪声和不稳定。

5/19/2025 11:01:05 AM

AI在线

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月单张4090跑到30fps，范浩强团队让VLA实时跑起来了一张合影就能泄露全家信息？央视紧急预警：“读心AI”正让社交晒图变成隐私炸弹可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 Sora、可灵、即梦哪家强？AI视频软件深度测评！免费！让图片放大不失真的位图转矢量图神器 Tmttool 阿里云通义模型首次大规模赋能双11，单日翻译调用量突破14亿次

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 AI新词 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法 AI for Science Agent Claude 苹果芯片腾讯 Stable Diffusion 蛋白质开发者 xAI 生成式神经网络机器学习 3D 具身智能 RAG AI视频人形机器人研究大语言模型百度生成 GPU Sora 工具华为计算字节跳动 AI设计大型语言模型 AGI 搜索视频生成场景生成式AI 深度学习 DeepMind 架构 MCP AI模型亚马逊特斯拉 Transformer 编程视觉预测

模型

ICRA 2025｜通用多机器人长时任务规划框架破解任务分配难题，成功率+105%、效率+36%

ICML 2025 Spotlight | 多模态大模型暴露短板？EMMA基准深度揭秘多模态推理能力

代码、多模态检索全面登顶SOTA！智源BGE向量模型三连击，并全面开放

​英伟达推出人形机器人新模型，助力工业革命新篇章

​谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

手机流畅处理128K长文本，vivo端侧新算法突破内存限制 | ACL 2025

多模态检索大升级！智源三大SOTA模型，代码、图文理解能力拉满

全新音频问答模型 Omni-R1：利用文本驱动的强化学习和自动生成的数据推进音频问答

字节提出从单一主题发展到多主题定制的通用框架UNO，通过情境生成释放更多可控性

谢赛宁团队提出BLIP3-o：融合自回归与扩散模型的统一多模态架构，开创CLIP特征驱动的图像理解与生成新范式!

震撼全网，AlphaEvolve矩阵乘法突破被证明为真！开发者用代码证实

英伟达新“桌面超算”800GB大内存，满血DeepSeek R1能装1个半

Poe2025春季AI模型使用趋势报告：OpenAI与Anthropic双雄争霸 可灵异军突起

AI生成视频总不符合物理规律？匹兹堡大学团队新作PhyT2V：不重训练模型也能让物理真实度狂飙2.3倍！

全新GPU高速互联设计，为大模型训练降本增效！北大/阶跃/曦智提出新一代高带宽域架构

参数量暴降，精度反升！哈工大宾大联手打造点云分析新SOTA

​Qwen发布全新偏好建模模型系列WorldPM模型

阿里通义实验室推出 ZeroSearch：让大模型无需 API 自我 “搜索”

英伟达推出人形机器人新模型，助力工业革命新篇章

谷歌 DeepMind 通过强化学习微调提升 AI 决策能力

Poe2025春季AI模型使用趋势报告：OpenAI与Anthropic双雄争霸可灵异军突起

Qwen发布全新偏好建模模型系列WorldPM模型