理论

语义缓存：如何加速LLM与RAG应用

现代基于LLM（大语言模型）和RAG（检索增强生成）的应用，常受限于三大痛点：延迟高、成本高、计算重复。即使用户查询只是措辞略有不同（比如“什么是Python？ ”和“跟我说说Python”），也会触发完整的处理流程——生成嵌入向量、检索文档、调用LLM。

10/30/2025 2:11:00 AM

大模型之路

变分掩码扩散模型：解决并发标记预测中的依赖关系问题

研究背景与问题定义基于扩散的大型语言模型(DLLMs)作为自回归模型(ARMs)的重要扩展，正在成为生成式AI领域的重要创新方向。与传统ARMs按预定义顺序顺序生成标记的方式不同，DLLMs提供了并发标记生成、更高输出多样性、增强全局一致性以及更好的生成文本可控性等优势。近期的突破性模型如LLaDA、Mercury和Gemini Diffusion都凸显了DLLMs的潜力。

10/30/2025 1:55:00 AM

葱葱

构建具备深度思考能力的 Agentic RAG 流水线，用于解决复杂查询

很多 RAG 系统失败，并不是因为 LLM 不够聪明，而是因为它们的架构太简单。它们试图用线性的一次性方式，处理一个本质上循环、多步骤的问题。许多复杂查询需要推理、反思，以及何时行动的聪明决策，这与我们面对问题时如何检索信息非常相似。

10/30/2025 1:45:00 AM

AI研究生

第一部分：引言在人工智能技术飞速发展的今天，智能问答系统已成为连接信息与用户的重要桥梁，它们不仅重塑着人机交互方式，更在提升服务效率、优化知识获取路径等方面展现出巨大潜力。在此背景下，"百晓生"作为一款基于RAG（检索增强生成）与外挂知识库的大型语言模型（LLM）驱动的问答产品，专注于为上门工程师提供精准的质检知识答疑服务。经过一年的持续迭代与优化，该产品已从最初的10%小流量实验，逐步开放至全国范围，目前每日稳定为超过3000名工程师提供支持，连续多周问答准确率保持在90% 。

10/30/2025 1:22:00 AM

车天博、李俊波、李莹莹

一文讲透AI Agent开发中的human-in-the-loop

前段时间确实有点忙，好久没有发文了。不过最近有好多AI技术方面的想法要跟大家分享:-)今天我们主要聊一聊在AI Agent开发中非常重要的一个特性：human-in-the-loop。为什么需要human-in-the-loop？

10/30/2025 12:55:00 AM

张铁蕾

参数空间对称性：深度学习理论的统一几何框架

过去十年，深度学习模型的规模从上百万参数的卷积网络扩展到上千亿参数的大语言模型，性能突飞猛进。然而，我们对这些模型为何有效仍缺乏系统性的理解。一个关键但常被忽视的原因在于：在神经网络中，存在大量 “不同却等价” 的参数配置 —— 它们实现相同的模型函数，却让优化与泛化的分析变得格外复杂。

10/29/2025 5:49:00 PM

机器之心

DeepSeek-OCR：OCR 的新突破

DeepSeek 近日发布了DeepSeek-OCR。这不仅仅是一个 OCR 模型，而是一个概念验证，它可能会从根本上改变我们在大型语言模型中对上下文的理解。这个想法是这样的：如果不是向 LLM 输入数千个文本标记，而是将该文本压缩成图像，并用 100 个视觉标记来表示它，而不会损失准确性，那会怎样？

10/29/2025 4:42:06 PM

晓晓

单条演示即可抓取一切：北大团队突破通用抓取，适配所有灵巧手本体

在灵巧手通用抓取的研究中，由于动作空间维度高、任务具有长程探索特征且涉及多样化物体，传统强化学习（RL）面临探索效率低、奖励函数及训练过程设计复杂等挑战。基于此，北京大学及BeingBeyond团队提出DemoGrasp框架——一种简单且高效的通用灵巧手抓取学习方法。该方法以一次成功的抓取演示轨迹为起点，通过对轨迹中的机器人动作进行编辑，以适应不同物体与姿态：改变腕部位姿用于确定“抓取位置”，调整手指关节角度用于确定“抓取方式”。

10/29/2025 4:38:26 PM

OpenAI终于快要上市了，也直面了这23个灵魂拷问

OpenAI昨天晚上9点，公布了一个消息。这个事，影响还蛮大的，基本代表着，OpenAI在开始准备上市了。图片然后，奥特曼也非常临时的宣布了重组的消息，以及，北京时间凌晨1点半，开始直播。

10/29/2025 4:29:27 PM

数字生命卡兹克

史上最惨一代？AI延长人类寿命，下一代活到200岁不是梦！

OpenAI、谷歌、微软、Meta、Anthropic等耳熟能详的科技大厂，高喊AGI将至。人类可能正在站在命运的分水岭：AI或许即将自我进化，带来智能爆炸与生命延长，也可能制造出人类无法理解的「黑箱语言」。内容创业者Matt Wolfe长期以来一直关注人工智能，并曾有幸对多位重量级人物进行专访，包括DeepMind的创始人诺奖得主Demis Hassabis、微软CEO纳德拉以及谷歌CEO劈柴等。

10/29/2025 4:27:33 PM

MetaAI解锁Transformer潜意识，仅额外3%计算开销，性能提升最高55%

Meta FAIR部门的研究员François Fleuret发布了一篇名为《The Free Transformer》的论文，提出了一种对现有解码器Transformer模型的精妙扩展。这项技术的核心，是让模型在生成每个字之前，能先在内部形成一个类似计划或草稿的隐性决策，而不是像过去那样，只能边写边想。实验证明，这种先计划，后执行的模式，在编程、数学和推理等任务上带来了显著的性能提升。

10/29/2025 4:20:57 PM

AI「上班流」首次完整曝光！不点鼠标，只写代码，PPT也当函数调

AI可以写代码、做PPT、生成图片，甚至梳理财务表格，早就屡见不鲜。但人们关注的，往往只是结果：代码能不能运行？图片有没有AI痕迹？

10/29/2025 4:16:58 PM

新智元

中科院新突破：Auto-RAG开启Agentic RAG落地新篇章

中科院智能信息处理重点实验室发表的Auto-RAG（Autonomous Retrieval-Augmented Generation）技术，作为Agentic RAG（智能体驱动检索增强）趋势下的产出，打破传统RAG的「检索→生成」线性瓶颈，通过大语言模型（LLM）的自主决策能力，实现「检索规划→信息提取→答案推断」的闭环推理，让机器像人类侦探般动态收集线索、修正方向，无需人工预设规则。这项技术的核心价值在于：将RAG从「被动执行工具」升级为「主动认知智能体」，不仅解决传统方法的效率低、幻觉多等问题，更在开放域问答、多跳推理等任务中展现出碾压级性能。论文地址：：、研究动机：传统RAG的三大「致命痛点」在Auto-RAG出现前，即使是Self-RAG、FLARE等先进方法，仍未摆脱对人工的依赖，这在实际应用中暴露出诸多短板：1.

10/29/2025 4:16:49 PM

Goldma

清华姚班团队，开源具身智能视觉语言动作（VLA）模型工具箱，打造行业通用技术底座

一群来自清华姚班、前旷视科技的核心人物，决定为具身智能领域建立一套通用准则，叫Dexbotic。 Dexbotic是基于PyTorch的视觉语言动作（Vision-Language-Action，VLA）模型工具箱。目的是为具身智能领域的专业人士提供一站式VLA研究服务，由一家叫原力灵机（Dexmal）的具身智能公司开发。

10/29/2025 4:11:39 PM

美团杀入视频生成模型赛道，LongCat-Video 136亿参数媲美顶尖模型，效率提升10倍

又是美团！美团最近在AI领域的开源动作，真是令人刮目相看。刚刚，美团LongCat团队发布了LongCat-Video的基础视频生成模型，它拥有136亿的参数量，能在数分钟内生成720p、30帧每秒的高质量视频，并且在文本转视频、图像转视频和长视频续写等多个任务上都表现出色。

10/29/2025 4:10:41 PM

天下苦VAE久矣：阿里高德提出像素空间生成模型训练范式, 彻底告别VAE依赖

近年来，基于扩散模型的图像生成技术发展迅猛，催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而，当前主流的训练范式普遍依赖一个核心组件——变分自编码器（VAE），这也带来了长久以来困扰研究者们的几个问题：训练复杂性：VAE旨在将高维图像压缩至低维隐空间，并能从中重建图像。但其训练过程需要在压缩率和重建质量之间取得精妙平衡，本身就极具挑战。

10/29/2025 4:06:10 PM

刚刚，最佳VLA模型GigaBrain-0开源：世界模型驱动10倍数据，真机碾压SOTA

近日，在湖北武汉东湖高新区，极佳视界与湖北人形机器人创新中心完成战略合作签约，并联合发布端到端VLA「具身基础模型」GigaBrain-0。这是国内首个利用「世界模型」生成数据实现真机泛化的视觉-语言-动作（VLA）基础模型，旨在通过世界模型为中心，无论在数据侧还是模型侧，彻底改变通用机器人大脑的开发方式。 GigaBrain-0拥有当前最先进的VLA模型架构，同时支持图像、点云、文本、本体状态的输入，输出结构化的任务规划和运动规划，并在大规模的数据上完成预训练，可以实现更精准的移动导航和长序列的复杂操作。

10/29/2025 4:04:51 PM

OpenAI一夜间重组！野心时间线来了！奥特曼最新采访首曝内部时间表：2028年打造出自动化AI研究员！10年内实现超级智能

编辑 | 听雨出品 | 51CTO技术栈（微信号：blog51cto）一夜之间，OpenAI大动作不断。 10月29日凌晨，Sam Altman 和 OpenAI 首席科学家 Jakub Pachocki共同出席了一场罕见的路线图直播，并在直播中表示，通过持续扩展深度学习，人类将在不到十年内实现超级智能。图片此外他们还透露，OpenAI 内部正在朝着 2026 年 9 月实现“实习级 AI 研究助理”的目标前进，并计划在 2028 年打造出一名完全自动化的“真正的 AI 研究员”。

10/29/2025 12:26:17 PM

听雨

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评深度拆解！这可能是全网最详细的AI视频创作教程 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程 Copilot 视觉

理论