AI在线 AI在线

理论

https://mp.weixin.qq.com/s/-lOj5naC2Yb3BD32YuUyOw

机构: 北京大学人工智能研究院 北京通用人工智能研究院作者: 毛彦升 徐宇飞 李佳琪 孟繁续 杨昊桐 郑子隆 王希元 张牧涵长文本任务是当下大模型研究的重点之一。 在实际场景和应用中,普遍存在大量长序列(文本、语音、视频等),有些甚至长达百万级 tokens。 扩充模型的长文本能力不仅意味着可以在上下文窗口中装入更长的文本,更是能够更好地建模文本段落间信息的长程依赖关系,增强对长文的阅读理解和推理。
3/17/2025 12:55:18 PM
机器之心

RAG(四)Adaptive Retrieval --语言模型的信任边界,参数与非参数记忆的有效性研究

大语言模型(LMs)在许多自然语言处理任务上表现优异,但它们在记忆和回忆不太常见或不流行的事实知识方面存在明显的局限性。 并且,当涉及到长尾实体(即那些在网络上讨论较少、出现频率较低的实体)的问题时,LMs 的性能显著下降,并且增加模型规模并不能有效地解决这一问题。 此外,LMs 对于自身知识边界的认识有限,有时会产生幻觉,即生成看似合理但实际上错误的信息。
3/17/2025 12:52:44 PM
Glodma

真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」

最近一段时间,智能体(Agent)再次成为 AI 领域热议的焦点。 2025 年 1 月,OpenAI 发布了名为 DeepResearch 的 o3 模型变种,专门用于网页和文档搜索。 得益于在浏览任务上的强化学习训练,DeepResearch 具备了制定搜索策略、交叉引用信息来源、甚至利用中间反馈来处理深层次知识的能力。
3/17/2025 12:52:00 PM
机器之心

迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单

7B小模型 3.8万条训练数据,就能让音频理解和推断评测基准MMAU榜单王座易主? 受到DeepSeek-R1中强化学习算法的启发,小米大模型团队对阿里的Qwen2-Audio-7B模型进行了微调。 结果模型在MMAU上的准确率从49.2%提升到了64.5%(涨幅31%),比以前霸榜的GPT-4o还高出近10个百分点。
3/17/2025 12:13:26 PM
量子位

有望重新定义语言生成技术的扩散模型——LLaDA​

译者 | 朱先忠审校 | 重楼简介如果我们能让语言模型更像人类一样思考,结果会怎样? 如果它们不是一次写一个字,而是先勾勒出自己的想法,然后逐渐完善,结果又会怎样? 这正是大型语言扩散模型(LLaDA)所引入的:一种与大型语言模型(LLM)中当前使用的文本生成不同的方法。
3/17/2025 11:35:36 AM
朱先忠

CVPR'25跨模态因果对齐,让机器更懂视觉证据

跨模态因果对齐,让机器更懂视觉证据! 来自中山大学、新加坡南洋理工大学等团队提出跨模态因果对齐框架(CRA),通过因果干预和跨模态对齐,显著提升时空定位的准确性与可解释性。 相关论文已被CVPR 2025接收,代码已开源。
3/17/2025 10:25:28 AM

一次排查 Cursor Bug 的经历

相信很多同学日常编码已经用上了Cursor。 最近,我在用Cursor过程中遇到了「注册的MCP服务不调用」的问题。 经过一顿排查,最终确定是Cursro自身bug导致。
3/17/2025 10:01:07 AM
卡颂

AI要取代程序员?吴恩达:别信!现在学编程比以往任何时候都香

AI的爆发式发展,让很多学习编程的人或者在职的软件工程师都很迷茫焦虑,更有甚者,像Anthropic CEO Dario Amodei 前两天说:“未来 3 到 6 个月内,90% 的代码将由人工智能编写;12 个月内,几乎所有代码都可能由人工智能生成”,那么究竟将来还需不要学习编程,吴恩达老师给出了他的看法:学习编程依然非常重要以下是原文中文翻译,分享给大家吴恩达@AndrewYNg如今有些人正在劝退他人学习编程,理由是人工智能将使编程自动化。 这种建议将来会被视为史上最糟糕的职业建议之一。 我不同意那位图灵奖和诺贝尔奖得主所写的“编程这个职业很可能走向消亡 [...] 而不是变得无所不能。
3/17/2025 9:43:42 AM
AI寒武纪

无需训练,100%完美检索!LLM练出「火眼金睛」,InfiniRetri超长文本一针见血

全新检索模式:在无限长token下,大语言模型自身或能检索信息! 受大语言模型(LLM)上下文窗口大小的限制,处理输入token数超过上限的各种任务颇具挑战性,无论是简单的直接检索任务,还是复杂的多跳推理任务。 尽管新提出的各种方法用来增强大语言模型的长上下文处理能力,但这些方法痛点突出:要么会产生高昂的训练后成本,要么需要额外的工具模块(如检索增强生成RAG),要么在实际任务中显示出改进,并不明显。
3/17/2025 9:40:00 AM
新智元

AI 快速发展会取代程序员吗?

最近收到很多同学的私信,讨论一个大家都很关心的问题:AI 的快速发展,会直接干掉程序员吗? 首先,先给大家说结论,那就是 不会。 不但不会,反而我认为:AI 的快速发展不仅不会取代程序员,反而会给程序员带来巨大的机会,这是程序员实现 阶级跃迁 的最好时机!
3/17/2025 9:37:46 AM
佚名

想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%

大规模多模态模型(Large Multimodal Models,LMM)在人类反馈下的表现如何? 这一问题对于利用LMM开发通用AI助手至关重要,现有的基准测试并未针对LMM与人类的交互智能进行测试。 来自新加坡国立大学的华人团队提出了InterFeedback,一个可应用任何LMM和数据集的交互式框架。
3/17/2025 9:35:00 AM
新智元

纽约时报作家被AGI「洗脑」!AI横扫奥数金牌、编写95%代码,人类却毫无准备

一觉醒来,离AGI又近了一步。 纽约时报专栏作家Kevin Roose,发帖表示自己被AGI「洗脑」了,现在对AGI深有感触。 强人工智能即将到来,但人类尚未做好准备。
3/17/2025 9:32:32 AM
新智元

AI搜索风靡,但高达60%引用出错!付费版甚至更糟

近四分之一的美国人表示他们已经用AI取代了传统搜索引擎。 最新研究发现,AI搜索工具在回答问题时,常常出现自信却错误百出的情况。 研究对比了8款具有实时搜索功能的AI工具,发现它们在引用新闻方面表现不佳,出错比例高达60%。
3/17/2025 9:30:00 AM
新智元

0行代码打造3D游戏,氛围编码席卷全网!开发30分爆赚28万

用「vide coding」制作3D游戏正在成为一股新风潮。 从大V到普通网友,越来越多人加入到了这场狂欢之中。 资深软件工程师Grégory D'Angelo上传了一段他vide coding出来的游戏视频。
3/17/2025 9:27:45 AM
新智元

谷歌重磅推出全新Scaling Law,抢救Transformer!3万亿美元AI面临岔路

测试时计算之后,谷歌三大团队集众人之力,发现了全新的Scaling Law! 刚刚,谷歌研究员Zachary Charles宣布:「在越来越大的模型上,分布式训练取得重大突破」。 这个核心算法,便是——DiLoCo的Scaling Law。
3/17/2025 9:25:00 AM
新智元

CVPR 2025:无需物理引擎,一个模型搞定图像渲染与分解

无需物理引擎,单个模型也能实现“渲染 逆渲染”了! 在计算机图形和视觉领域,渲染是指将3D模型变成逼真的2D图片,逆渲染则是从2D图片分析出3D模型的各种属性(如材质、光照等)。 现在,从材质分解(逆渲染)——材质编辑——物体渲染的整个流程,都被统一到了一个框架中,且在性能方面达到了新SOTA。
3/17/2025 9:20:00 AM
量子位

ICLR 2025 Spotlight | 慕尼黑工业大学&北京大学:迈向无冲突训练的ConFIG方法

本文由慕尼黑工业大学与北京大学联合团队撰写。 第一作者刘强为慕尼黑工业大学博士生。 第二作者楚梦渝为北京大学助理教授,专注于物理增强的深度学习算法,以提升数值模拟的灵活性及模型的准确性和泛化性。
3/17/2025 9:15:00 AM
机器之心

Manus带火的MCP,让Claude一句话自动化3D建模,网友:真·AI+应用

一句话提示,Claude自动化打开Blender将2D图片转为3D建模。 整个过程行云流水。 而且还能只用一次提示词,再基于这个场景搭建可以互动的网页。
3/17/2025 8:55:00 AM
量子位