AI在线 AI在线

框架

单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体

在灵巧手通用抓取的研究中,由于动作空间维度高、任务具有长程探索特征且涉及多样化物体,传统强化学习(RL)面临探索效率低、奖励函数及训练过程设计复杂等挑战。 基于此,北京大学及BeingBeyond团队提出DemoGrasp框架——一种简单且高效的通用灵巧手抓取学习方法。 该方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑,以适应不同物体与姿态:改变腕部位姿用于确定“抓取位置”,调整手指关节角度用于确定“抓取方式”。
10/29/2025 4:38:26 PM

StereoAdapter:北大首提自监督,适配水下双目深度估计

水下环境中的深度感知对水下机器人自主导航、目标检测和三维重建等任务至关重要。 相比单目方法,双目视觉可以通过双目相机直接获得具有度量尺度的3D深度,避免了单目深度固有的尺度不确定性。 然而,将现有视觉算法直接应用于水下场景会遇到显著挑战。
10/27/2025 1:13:00 AM
新智元

CIKM'25 |告别黑箱解释!首个潜变量自动解释框架

如今,深度生成模型(Deep Generative Models),如变分自编码器(VAE)和扩散模型,已成为图像、音频乃至视频生成领域的核心技术。 它们通过学习数据的潜在分布,赋予AI强大的「想象力」,能够创造出以假乱真的新内容。 然而,这些模型内部运作的机制却如同一个巨大的「黑箱」。
10/23/2025 12:49:08 PM

AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架

在人工智能的广阔世界里,我们早已习惯了LLM智能体在各种任务中大放异彩。 但有没有那么一瞬间,你觉得这些AI“牛马”还是缺了点什么? 没错,它们缺少的是我们人类最宝贵的职场技能:经验的积累和持续的自我进化。
10/22/2025 9:00:00 AM

Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”

让模型先解释,再学Embedding! 来自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人员,最新推出可解释的生成式Embedding框架——GRACE。 过去几年,文本表征(Text Embedding)模型经历了从BERT到E5、GTE、LLM2Vec,Qwen-Embedding等不断演进的浪潮。
10/22/2025 8:39:31 AM

1.58bit不输FP16!微软推出全新模型蒸馏框架,作者全是华人

1.58bit量化,内存仅需1/10,但表现不输FP16? 微软最新推出的蒸馏框架BitNet Distillation(简称BitDistill),实现了几乎无性能损失的模型量化。 该框架在4B及以下的Qwen、Gemma上已被证实有效,理论上可用于其他Transformer模型。
10/20/2025 5:15:35 PM

Vision-Zero:零数据VLM自我进化!陈怡然团队提出零监督训练新范式

本文作者包括来自杜克大学的汪勤思、林阅千、李海教授、陈怡然教授,新加坡国立大学的刘博,马里兰大学的周天翼教授,和 Adobe 的研究员施靖、万锟、赵文天。 开源代码&模型:::,但训练过度依赖人工标注的数据与精心设计的强化学习奖励。 这种依赖带来数据稀缺问题:多模态标注成本高昂,限制了训练数据的规模与多样性。
10/11/2025 1:51:21 PM

攻克结构化长文档检索难题!新框架让模型告别“结构性失明”

AI读不懂HTML、Markdown长文档的标题和结构,找信息总踩坑? 解决方案来了——SEAL全新对比学习框架通过带结构感知 元素对齐,让模型更懂长文。 该方法创新性地将文档的宏观层级结构和微观元素语义同时融入到统一的Embedding空间中,显著增强了预训练语言模型对结构化数据的理解和表示能力。
9/26/2025 9:32:47 AM

再见,数据标注!腾讯发布R-Zero框架,让AI自己训练自己

一个不再依赖人类数据标注的大模型训练框架,它来了! 由腾讯AI Lab与美国圣路易斯华盛顿大学联合开发的新框架“R-Zero”,成功展示出大语言模型(LLM)如何靠自己训练自己,不再需要人类提供任务或答案。 图片论文地址:,是彻底摆脱人类标注数据的依赖,靠模型之间的博弈,自动生成、筛选和吸收新的训练内容。
9/5/2025 12:00:05 AM

揭秘大语言模型的“开挂神器”:ReAct 框架与推理应用

大语言模型看似神通广大,但其实也有犯迷糊的时候。 今天就带大家揭开一个能让大语言模型瞬间“开挂”的秘密武器——ReAct 引导式学习框架,还有超厉害的 ReACT 推理应用。 想知道它们到底有多神?
8/26/2025 4:11:00 AM
demo123567

解决扩散模型过拟合的创新框架T-LoRA

随着预训练的大型文本到图像扩散模型的发展,越来越多的企业和个人开发者开始探索如何通过少量样本对这些模型进行定制化,以生成特定的对象或风格。 但这种定制化过程面临着一个严峻的挑战:当训练样本数量有限时,模型往往会过度拟合训练数据的背景和位置信息,导致生成的图像缺乏多样性和灵活性。 为了解决这一难题,来自 AIRI 和 HSE 大学的研究团队提出了一种名为 T-LoRA 的新框架,旨在通过单张图像对扩散模型进行定制化,同时避免过度拟合的问题。
8/13/2025 9:27:55 AM

2025 年多款 Deep Research 智能体框架全面对比

作者:fangzlong随着模型的范式和工程方式发展,网络上涌现出了一大批模仿人类研究者对问题进行深入研究的智能体应用。 本文将从 OpenAI 关于 DeepResearch 的指南开始,通过几个开源框架的架构解构与功能映射,揭示不同框架在研究自动化领域的差异。 为各位使用者、开发者选择合适工具和框架提供系统化参考。
8/12/2025 8:58:03 AM
腾讯技术工程

谷歌发布BlenderFusion,基于3D的视觉编辑与生成式合成框架

近年来,生成对抗网络和扩散模型等创新技术在图像生成领域取得了巨大突破,能够生成逼真的图像和视频内容。 但这些技术通常侧重于整体图像的生成,对于需要精确控制多个视觉元素如物体、相机视角和背景的复杂合成场景支持有限。 例如,在一个包含多个物体的场景中,若要将某个物体进行替换、改变其位置或调整其外观,同时保持整个场景的自然过渡和真实感,现有技术往往难以达到理想效果。
8/11/2025 6:04:10 PM

借助上下文工程优化任何AI代理框架

在人工智能代理技术飞速发展的当下,许多开发团队都深陷一系列棘手问题:代理时常出现幻觉输出、工作链中途断裂、提示词臃肿不堪,而团队往往将这些问题归咎于模型参数不足,一心寄望于更强大的模型能带来转机。 然而,事实却并非如此。 相关实践数据清晰地表明,73%的生产环境故障根源在于糟糕的上下文工程,而非模型本身的局限性。
8/8/2025 1:45:00 AM
大模型之路

超大模型推理加速2.18倍!SGLang联合美团技术团队开源投机采样训练框架

专门适用超大模型、带来2.18倍推理加速,最新投机采样训练框架开源! SGLang团队联合美团搜推平台、Cloudsway.AI开源SpecForge。 SGLang,当前趋势下最受青睐的推理框架之一,为DeepSeek提供了专属优化,也深受英伟达、AMD、xAI等厂商喜爱。
7/28/2025 8:42:00 AM

北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势

如今,GPT-4o、Gemini 2.5 Pro 等多模态基础模型在对话、代码生成和数学推理等任务中已经达到甚至超越了人类水平。 研究者开始探索如何将这种智能从数字世界延伸至物理空间,以实现具身智能。 这其中最受关注的前沿方向之一,便是视觉 - 语言 - 动作模型(Vision-Language-Action Models,简称 VLA)。
7/25/2025 10:19:44 AM

IEEE ICDCS’ 25 | 提速79%!上交大新方法优化企业级AI流程调度

复合LLM应用 (compound LLM applications) 是一种结合大语言模型(LLM)与外部工具、API、或其他LLM的高效多阶段工作流应用。 ⽬前,服务这些应⽤任务需要⾯对运⾏时⻓不确定、⼯作流结构不确定等问题,这对现有集群任务调度算法提出了极大挑战,并严重影响任务运⾏效率。 为了解决上述问题,上海交通大学朱怡飞教授团队联合江行智能提出调度框架LLMSched,通过引入三类新节点来扩展传统任务表征方法实现复合LLM应用任务的有效表征,借助贝叶斯网络识别可降低不确定性的关键节点,并以信息熵衡量节点的熵减程度。
7/25/2025 9:22:13 AM

首个统一「图像/视频」自适应语义分割框架来了!QuadMix刷榜多项基准

在语义分割领域,无监督领域自适应(Unsupervised Domain Adaptive Semantic Segmentation,UDA-SS)旨在将有标签的源域知识迁移到无标签的目标域。 随着数据规模和多样性的迅速提升,该任务日益重要。 目前主流研究集中于图像UDA-SS,视频UDA-SS近年来逐渐开始受到关注。
7/24/2025 9:17:00 AM