AI在线 AI在线

数据

精准调控大模型生成与推理!浙大&腾讯新方法尝试为其注入“行为定向剂”

如果你面前有两个AI助手:一个能力超强却总爱“离经叛道”,另一个规规矩矩却经常“答非所问”,你会怎么选? 这正是当前大模型控制面临的两难困境:要么模型聪明却难以约束,要么守规矩却缺乏实用性。 但我们真正追求的,并不是在“聪明但难控”与“听话但愚钝”之间二选一,而是打造既强又好的AI助手——既具备强大的智能能力,又能始终按照人类意图行事。
6/6/2025 9:15:00 AM

ACL 2025 | 基于Token预算感知的大模型高效推理技术

本位作者分别来自南京大学,罗格斯大学和马萨诸塞大学阿默斯特分校。 第一作者韩廷旭与共同第一作者王震霆是分别来自南京大学和罗格斯大学的博士生,研究方向聚焦于大模型推理以及安全负责任的生成式人工智能。 通讯作者为南京大学房春荣教授。
6/5/2025 11:49:21 AM

10步优化超越强化学习,仅需1条未标注数据!后训练强势破局

在具备强大的通用性能之后,当下大模型的研究方向已经转向了「如何解决特定且复杂的推理任务」,比如数学问题、分析物理现象或是构建编程逻辑。 要想达到更高的性能,除了海量文本的预训练之外,往往还需要进一步的后训练。 主流后训练方法是采用强化学习(RL),特别是结合可验证奖励的强化学习(RLVR)。
6/5/2025 9:05:00 AM

最新发现!每参数3.6比特,语言模型最多能记住这么多

语言模型到底能记住多少信息? Meta、DeepMind、康奈尔大学和英伟达的一项测量结果显示:每个参数大约 3.6 比特。 一旦达到这个极限,它们就会停止记忆并开始泛化。
6/4/2025 1:56:51 PM

经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决

在深度学习领域中,对激活函数的探讨已成为一个独立的研究方向。 例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性,已成为热门选择。 尽管这一趋势盛行,经典 ReLU 函数仍因其简洁性、固有稀疏性及其他优势拓扑特性而广受青睐。
6/3/2025 5:37:10 PM

AI数学能力暴涨100%,自进化直逼RL极限!CMU新作颠覆认知

通往AGI最大的绊脚石,便是互联网数据不够用了! DeepSeek-R1、OpenAI的o系推理模型出世,不再单纯依赖人类标注「标准答案」,而是通过RL实现破局。 但问题来了——当前,LLM依然需要人类设计「正确信号」来指导训练。
6/3/2025 8:51:00 AM

挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化

无需标注数据、无需繁琐奖励设计,只用10步就能见效——「熵最小化」或许比强化学习更适合大语言模型快速升级。 强化学习(RL)近年来在大语言模型(LLM)的微调中大获成功,但高昂的数据标注成本、复杂的奖励设计和漫长的训练周期,成为制约RL进一步应用的瓶颈。 Ubiquant研究团队提出了一种极为简单有效的无监督方法——One Shot熵最小化(Entropy Minimization,EM),仅用一条无标签数据,训练10步内即可显著提升LLM性能,甚至超过使用成千上万数据的RL方法。
6/3/2025 8:49:00 AM

极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency

本文由 NUS ShowLab 主导完成。 第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、NeurIPS 等国际顶级会议上发表多篇研究成果。 共同一作刘成为 NUS 重庆研究院四年级本科生,研究方向是视觉生成。
6/3/2025 8:26:00 AM

SOTA大模型遇上加密数据评测:Qwen3未破10%,o1也栽了丨上海AI Lab等联合研究

大语言模型遇上加密数据,即使是最新Qwen3也直冒冷汗! 尽管当前的推理模型在各类基准测试中展现出卓越的性能,但在密码学这一对逻辑严密性和细节精确度要求近乎苛刻的专业领域,模型的推理能力仍有待深入探索。 密码学不仅需要模型具备高阶数学运算能力和严密的逻辑推理链条,更要求其能够精准识别复杂加密模式中的潜在规律;成功解密需要模型具有极强的综合推理能力。
5/30/2025 9:03:00 AM

还得是华为!Pangu Ultra MoE架构:不用GPU,你也可以这样训练准万亿MoE大模型

Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型,此前发布了英文技术报告[1]。 最近华为盘古团队发布了 Pangu Ultra MoE 模型架构与训练方法的中文技术报告,进一步披露了这个模型的细节。 训练超大规模和极高稀疏性的 MoE 模型极具挑战,训练过程中的稳定性往往难以保障。
5/30/2025 8:45:00 AM

数据提取场景下不同LLM模型对比分析

在数字化时代,数据作为核心资产,其高效处理与利用成为企业和组织发展的关键。 然而,大量数据以非结构化文本、传统文档等形式存在,导致数据提取面临巨大挑战。 人工智能,尤其是大语言模型(LLMs)的爆发式发展,为大规模自动化数据提取提供了新的可能。
5/29/2025 1:50:00 AM
大模型之路

首个面向柔性衣物灵巧操作的仿真平台来了,北大、伯克利联合发布

本论文共同第一作者为王昱然、吴睿海、陈越,导师为北京大学董豪老师。 课题组致力于统一的物体表征操作研究,以实现具有可解释性和泛化能力的物体操作策略。 在机器人操作领域,柔性物体,尤其是衣物的操控始终是一个值得关注的难题。
5/28/2025 6:43:17 PM

开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险

本文作者分别来自清华大学 CoAI 小组和墨尔本大学。 第一作者张哲昕为清华大学直博三年级学生,研究方向为大模型安全,主要合作者为孙玉豪,来自墨尔本大学,主要指导教师为清华大学王宏宁副教授与黄民烈教授。 基于开源模型继续在下游任务上使用私有下游数据进行微调,得到在下游任务表现更好的专有模型,已经成为了一类标准范式。
5/28/2025 11:46:18 AM

GPA只有3.3,顶会一作两篇,成功杀进TOP 20 AI博士?小哥曝光关键秘诀

两篇顶会一作,在亚洲攻读硕士学位,2026年春季毕业。 这位网友表示,自己计划申请2026年秋季开学的博士项目。 他的条件是:本科GPA在3.2-3.3左右,不算很高,但有一些研究经验。
5/28/2025 11:43:06 AM

对话27岁博导张林峰:模型压缩获CVPR满分有点意外,上海交大像我这样年轻老师很多

上海交大、27岁、最年轻博导,留给张林峰的标签不多了(Doge)。 最新引发关注的,是他实实在在的一个论文成果——他们提出了一种新的数据集蒸馏方法,结果获得了CVPR 2025满分。 通过引入一个辅助的神经网络,只需一块6年前的2080Ti,就能做大模型数据蒸馏。
5/27/2025 3:44:28 PM

社区造数服务接入MCP

一、背景今年 MCP 的概念非常火,市面上也涌现出了一大批 MCP 相关工具。 作为技术一线者,都会按捺不住地去实操一下,很早的时候就有个设想,如果把我们的测试工具都改造为符合 MCP 服务协议标准,然后全部接入 AI Agent,打造一个集万千工具于一体的智能管家来帮助我们提效,是不是一个很完美的设想。 很多宏伟或者天马行空的想法想要真正的落地,必然需要不断向下,拆解成可落地的任务模块,这里我们先从造数开始。
5/27/2025 12:15:07 AM
阿凯

AI在「赚钱锦标赛」夺冠,比人类还会做生意!躺赚时代要来了?

如何用AI赚钱,可能是这个时代最常见的问题。 有些人选择用大模型写小说、写报告、写文案等等,但这些场景只是让模型在执行一些「短期且孤立」的任务。 如果能找到合适的应用场景,比如「用自动驾驶跑网约车」,并且模型还能够在长时间内保持连贯的输出,再那岂不是就能躺赚了?
5/26/2025 9:14:00 AM

比甄嬛还狠!奥特曼「千面人设」被揭穿,MIT华人记者7年曝黑幕

OpenAI的「宫斗」往事,还有大瓜! 因为曝料实在太过惊人,奥特曼在相关书籍正式出版之前,否认三连,撇清关系。 但曝料人Karen Hao毕业于MIT,曝料过多家美国科技巨头的「黑幕」,因新闻报道获得多个奖项。
5/26/2025 9:07:00 AM