AI在线 AI在线

资讯列表

人大 & 百度 SIGIR 新发现:揭开 RAG 的 “黑箱”,LLM 知识利用的四阶段与神经元密码

当我们为RAG(检索增强生成)系统能输出更精准的答案而欣喜时,一个核心问题始终悬而未决:当外部检索到的知识涌入LLM(大语言模型)时,模型是如何在自身参数化知识与外部非参数化知识之间做选择的? 是优先采信新信息,还是固守旧认知? 中国人民大学与百度团队联合发表于2025年SIGIR的研究《Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation》,首次从宏观知识流与微观模块功能两个维度,系统性拆解了RAG中LLM的知识利用机制。
10/30/2025 9:31:10 AM
Goldma

当“骆驼打包行李”难倒AI:ImagerySearch如何让视频模型学会想象?

大家好,我是肆〇柒。 今天我们一起阅读一篇来自中国科学院大学(UCAS)、阿里巴巴高德地图(AMAP)与中科院智能系统与工程研究中心(CRISE) 联合团队的最新工作——《ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints》。 这项研究直面当前视频生成模型在“想象力任务”中的系统性失效,提出了一种无需额外训练、仅靠测试时自适应策略即可显著提升长距离语义生成能力的新范式。
10/30/2025 9:18:59 AM
肆零柒

英伟达,全球首个5万亿美元公司诞生!「GPU帝国」超日本德国GDP

今夜,英伟达再次创造历史! 受GTC大会的影响,英伟达股价上涨4.15%,成为首家市值突破5万亿美元的公司! 这是一个前所未有的里程碑,不仅是英伟达,不仅是GPU芯片,更是AI时代的里程碑。
10/30/2025 9:18:35 AM

Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构

Cursor的首个编码模型,刚刚发布了! 最新进展,Cursor 2.0正式发布,并且首次搭载了「内部」大模型。 没错,不是GPT、不是Claude,如今模型栏多了个新名字——Composer。
10/30/2025 9:13:55 AM

当人工智能遇见图形数据库:利用多模态数据融合进行创新

人工智能时代的数据挑战随着智能技术革新各行各业,数据量和种类都呈现爆炸式增长。 银行生成结构化交易记录、非结构化客户通话记录以及半结构化的 JSON 档案。 医院管理着自由文本的病历、数值化的实验室结果以及诊断图像。
10/30/2025 9:05:47 AM
晓晓

Amazon重磅新作SimRAG:让大模型“自我进化”,轻松适配专业领域问答任务

在大模型技术飞速发展的今天,通用大模型在日常对话、内容创作等场景中已展现出卓越能力,但当面对医学、科学、计算机等专业领域时,却常常“力不从心”。 分布偏移导致模型认知与领域数据脱节,高质量领域数据稀缺推高训练成本,传统RAG技术又难以精准捕捉领域信息——这些痛点成为大模型落地专业场景的关键阻碍。 而Amazon在2025年NAACL会议上发表的SimRAG(Self-Improving Retrieval-Augmented Generation) 框架,为解决这些问题提供了全新思路。
10/30/2025 8:57:54 AM
Goldma

阿里新研究:统一了VLA和世界模型

如果说视觉让AI看见世界,动作让AI改变世界,那么——WorldVLA正在让AI理解世界。 顾名思义,WorldVLA是一个将视觉语言动作模型(VLA)与世界模型相融合的统一框架,由阿里巴巴达摩院、湖畔实验室和浙江大学共同提出。 在该框架下,世界模型通过结合对动作与图像的理解来预测未来图像,旨在学习环境的潜在物理规律,以提升动作生成的准确性;动作模型则基于图像观测生成后续动作,不仅有助于视觉理解,还反向促进世界模型的视觉生成能力。
10/30/2025 8:53:34 AM

估值上万亿、现金流见底:AI盛宴背后的真相没人敢说

最具价值的私有AI初创,都有谁? 投资人Deedy Das总结了目前估值最高的15家AI初创,以及最新的公开的营收和增长情况。 图片OpenAI、xAI和Anthropic毫无意外霸榜前三。
10/30/2025 8:10:03 AM
新智元

DeepSeek-OCR:用视觉模态给长文本“瘦身”,大模型处理效率再突破

在大语言模型(LLMs)不断拓展能力边界的今天,长文本处理始终是道绕不开的坎——文本序列每增加一倍,计算量就可能翻四倍,像处理一本几十万字的书籍、一份上千页的金融报告时,内存溢出、推理卡顿成了常态。 但DeepSeek团队最近开源的DeepSeek-OCR模型,给出了一个全新解法:把文本“画”成图像,用视觉Token实现高效压缩。 原本需要1000个文本Token存储的内容,现在100个视觉Token就能搞定,还能保持97%的OCR精度。
10/30/2025 7:00:00 AM
Goldma

一键生成品牌营销物料!谷歌发布重磅AI设计产品Pomelli

一、谷歌实验室新成员. 我们都知道谷歌如果想要尝试什么 AI 产品或者想法的话会先在它们的 Google Labs 里面发布,如果反响好的话就会独立运营,变成单独的产品。 比如我们之前耳熟能详的 ImageFX(用 Imagen 图像模型混合和生成图像)、Flow(使用 Veo 3 视频模型创作视频)、NotebookLM(帮你用各种模态解释文档和视频)等。
10/30/2025 6:50:03 AM
歸藏

为什么说做好RAG就够了?深度拆解RAG系统的现状、优化与未来

在如今的AI技术讨论中,“模型微调”曾一度被视为提升任务效果的“终极方案”。 但在2025年10月硅谷那场AI Agent内部研讨会上,多位行业专家却抛出了一个颠覆性观点:多数场景下,模型微调根本用不上,把检索增强生成(RAG)做透,就足够解决问题。 这个观点背后,是RAG技术在成本、效率与知识时效性上的天然优势,也是行业对“AI落地实用性”的重新审视。
10/30/2025 6:00:00 AM
Goldma

TATTOO:让PRM真正"看见"表格的工具集成验证框架

大家好,我是肆〇柒。 今天我们一起探索一项来自UIUC、Amazon、Purdue大学和斯坦福大学的联合研究——TATTOO。 这项研究揭示了一个令人惊讶的现象:尽管现有Process Reward Models (PRMs)在文本推理中表现出色,但在面对表格数据时却近乎"失明"。
10/30/2025 4:00:00 AM
肆零柒

LangChain提出Agent工程化的新分层(Agent harness)

LangChain拿到了新融资,对自己有了新定位——Agent基础设施提供商,同时对自己的产品矩阵做了新的梳理,重新定义了Agent开发的三个层次。 :Framework(框架层):提供抽象和标准化接口。 LangChain就是这一层,还有Vercel的AI SDK、CrewAI这些。
10/30/2025 3:00:00 AM
winkrun

反事实解释增强的大型语言模型少样本知识蒸馏技术

在当前大型语言模型(LLM)快速发展的背景下,模型规模与计算资源需求之间的矛盾日益凸显。 虽然大型语言模型展现出了卓越的性能,但其庞大的参数量和推理成本使其难以在资源受限的环境中部署。 本文对最新发表在arXiv上的研究论文《Few-Shot Knowledge Distillation of LLMs With Counterfactual Explanations》进行深入分析,该论文提出了一种新颖的知识蒸馏方法,通过反事实解释(Counterfactual Explanations)增强少样本学习,实现了更高效的模型压缩。
10/30/2025 2:25:00 AM
可可

对 GPT 5 模型路由机制的深度解析

我们今天为大家带来的文章,作者的观点是:GPT-5 通过引入“智能路由器”架构,实现了按需调用不同专家模型的动态协作机制,标志着大模型正从“全能单体架构”迈向“专业化协同架构”的新范式。 文章深入剖析了 GPT-5 路由机制的四大决策支柱 —— 对话类型、任务复杂度、工具需求与用户显性意图,并对比了其相较于 GPT-4、Toolformer 及早期插件系统的突破性进步。 作者还详细拆解了该架构的技术实现路径、核心优势(如响应速度提升、资源成本优化、可解释性)以及潜在挑战(如延迟叠加、路由误判、调试困难)。
10/30/2025 2:13:00 AM
Baihai IDP

语义缓存:如何加速LLM与RAG应用

现代基于LLM(大语言模型)和RAG(检索增强生成)的应用,常受限于三大痛点:延迟高、成本高、计算重复。 即使用户查询只是措辞略有不同(比如“什么是Python? ”和“跟我说说Python”),也会触发完整的处理流程——生成嵌入向量、检索文档、调用LLM。
10/30/2025 2:11:00 AM
大模型之路

变分掩码扩散模型:解决并发标记预测中的依赖关系问题

研究背景与问题定义基于扩散的大型语言模型(DLLMs)作为自回归模型(ARMs)的重要扩展,正在成为生成式AI领域的重要创新方向。 与传统ARMs按预定义顺序顺序生成标记的方式不同,DLLMs提供了并发标记生成、更高输出多样性、增强全局一致性以及更好的生成文本可控性等优势。 近期的突破性模型如LLaDA、Mercury和Gemini Diffusion都凸显了DLLMs的潜力。
10/30/2025 1:55:00 AM
葱葱

构建具备深度思考能力的 Agentic RAG 流水线,用于解决复杂查询

很多 RAG 系统失败,并不是因为 LLM 不够聪明,而是因为它们的架构太简单。 它们试图用线性的一次性方式,处理一个本质上循环、多步骤的问题。 许多复杂查询需要推理、反思,以及何时行动的聪明决策,这与我们面对问题时如何检索信息非常相似。
10/30/2025 1:45:00 AM
AI研究生