理论
稠密监督 × 策略内采样:On-Policy Distillation 如何以 1/10 成本训练专家级小模型
                        大家好,我是肆〇柒。 我看到一项来自 Thinking Machines Lab 的前沿研究——《On-Policy Distillation》。 这项工作巧妙融合了强化学习的策略内采样优势与知识蒸馏的稠密监督信号,不仅将后训练成本降至传统 RL 的十分之一,还在数学推理、个性化助手和持续学习等关键场景中展现出惊人的效率与稳定性。
                    
                    11/4/2025 9:42:07 AM
                        肆零柒
                    从 “一刀切” 到 “精准筛”:DeepSieve 用四步流水线重构 RAG,告别检索噪声!
                        在大语言模型(LLMs)主导的AI时代,知识密集型任务始终面临一个核心矛盾:LLM擅长复杂推理,但受限于固定参数无法动态获取最新或领域专属知识;检索增强生成(RAG)虽能链接外部知识,却常因“一刀切”的检索逻辑陷入噪声冗余、推理浅薄的困境。 来自罗格斯大学、西北大学与NEC实验室的团队提出的DeepSieve,创新性地将LLM作为“知识路由器”,通过多阶段信息筛选机制,为异构知识源与复杂查询的精准匹配提供了新解法。 本文将带您深入拆解这一方案的设计思路与实验效果。
                    
                    11/4/2025 9:31:03 AM
                        Goldma
                    "人工测试"迈向“无人测试",2025年IT产研升级面临“大变”
                        出品 | 51CTO技术栈(微信号:blog51cto)一个略显科幻的场景正在软件研发领域悄然上演:开发工程师将代码合并入CI/CD流水线后,一个AI驱动的“质量保障智能体”便被瞬间唤醒。 它能够辅助解析需求文档PRD,自主规划测试策略,并高效生成覆盖边界条件的测试用例与测试脚本。 面对大模型对复杂领域的理解产生的“幻觉”,通过人机协同和工程化的调优,Agent在发现UI渲染异常或API错误时,能快速自动化地收集日志、分析关键链路,并提交一份完善附带复现路径和初步修复建议的报告。
                    
                    11/4/2025 9:30:10 AM
                        
                    诺奖一年后,AI奠基人辛顿再发警告:中国十年后会超越美国;人类在亲自制造外星人;AI带来大规模失业潮将失控,需切尔诺贝利时刻警醒
                        编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)拿下诺奖一年之后,AI奠基人、“AI教父”辛顿·杰弗里,却成了那个最担忧人工智能的人。 这位让神经网络走入现实的科学家,在刚刚放出的采访视频中再次以一种几乎绝望的语气告诉全人类:“我们正在亲手制造外星人。 ”这些外星人不会从星空降临,而是从代码中诞生。
                    
                    11/4/2025 9:23:20 AM
                        
                    云昭
                    LangChain重磅推出DeepAgents CLI:支持持久化记忆的AI编程助手
                        LangChain团队近日正式发布了DeepAgents CLI,这是一款专为编程、研究和构建AI代理而设计的命令行工具。 最大的亮点在于支持持久化记忆系统,让AI助手能够学习和记住信息,并在不同会话之间保持记忆连续性。 现在,开发者可以直接从终端轻松创建和运行自定义的DeepAgents代理。
                    
                    11/4/2025 9:16:14 AM
                        阿丸笔记
                    抖音SAIL团队联合港中文MMLab推出SAIL-Embedding:打通「视、文、音」的全模态嵌入
                        在短视频推荐、跨模态搜索等工业场景中,传统多模态模型常受限于模态支持单一、训练不稳定、领域适配性差等问题。 近日,字节跳动抖音 SAIL 团队联合香港中文大学 MMLab 提出 SAIL-Embedding——一款专为大规模推荐场景设计的全模态嵌入基础模型,不仅实现了视觉、文本、音频的统一表征,更在抖音真实业务场景中带来显著效果提升,相关技术报告已正式公开。 论文标题:SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model技术报告: 能力概览突破传统局限:全模态   工业级优化双管齐下现有多模态嵌入模型主要分为两类:以 CLIP 为代表的双塔架构,虽高效但模态融合浅;以 MLLM 为基础的融合架构,虽语义能力强却多局限于图文模态。
                    
                    11/4/2025 9:00:00 AM
                        
                    说话像ChatGPT,统统拉黑!「AI腔」正毁掉社交,奥特曼都受不了
                        遇到AI,直接拉黑。 不是AI,说话像AI的也拉黑! 自ChatGPT发布以来,「AI腔」就一直颇受网友诟病。
                    
                    11/4/2025 8:50:00 AM
                        
                    现在整个AI投资逻辑都错了!微软CEO首次承认:成排的H100正在积灰,插不上电
                        真正的瓶颈早已不是芯片,而是电力Satya刚刚透露:整个AI行业的投资逻辑都错了,市场根本没有对相关公司进行重新定价微软有机架成排的H100正在积灰,原因不是不想用,而是不能用——根本没有相应的电力基础设施来支持它们运行这意味着,所有那些根据芯片采购量和GPU数量为这些公司定价的分析师模型,从根本上就是错的。 你正在为错误的约束条件估值。  瓶颈早已转移,而市场仍在像2023年那样交易重写资本支出方程这完全改写了资本支出的等式当微软斥资500亿美元购买英伟达GPU时,华尔街将其誉为AI投资,并推高了两家公司的股价。
                    
                    11/4/2025 8:49:47 AM
                        
                    硅谷甄嬛传爆更,马斯克转发!Ilya动手那一夜,谁捅了奥特曼一刀?
                        Ilya备忘录还是被马斯克转发出来了! 这份10月1日就记录在案的备忘录,简直复杂且幼稚得到难以想象。 AI圈子最顶尖天才、OpenAI的创造者们,在宫斗方面也复杂到一言难尽。
                    
                    11/4/2025 8:46:22 AM
                        
                    大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”
                        多模态大模型(MLLM)在自然图像上已取得显著进展,但当问题落在图表、几何草图、科研绘图等结构化图像上时,细小的感知误差会迅速放大为推理偏差。 线性、刚性的“链式思考”流程也难以支撑复杂任务中必要的回溯与分支探索。 为此,微软亚洲研究院联合清华大学、香港科技大学提出PixelCraft:以高保真图像处理与非线性多智能体推理为两大支柱,系统性提升结构化图像理解的准确性、鲁棒性与可解释性,在多个图表与几何基准上给出一致的性能增益。
                    
                    11/4/2025 8:44:00 AM
                        
                    斯坦福7B智能体全面超越GPT-4o,推理流登顶HF
                        当前AI Agent的发展正陷入两难的境地:一方面,训练「全能型」大模型让其同时承担推理、规划与工具调用,虽具一体化优势,但在长链推理中往往训练不稳定、扩展性受限;另一方面,基于prompt的智能体系统虽具灵活性,却缺乏学习与自我优化能力,无法从交互中持续进化。 如何突破这一瓶颈? 斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和Lambda的研究团队给出了新答案:让智能体系统在推理「流」中进行在线强化学习,从而实现持续的自我提升与能力进化。
                    
                    11/4/2025 8:42:27 AM
                        
                    我为马斯克扮演机器人!擎天柱背后竟是最贵「演员团」
                        万圣节当天,特斯拉擎天柱(Optimus)亮相纽约时代广场,为现场观众分发糖果。 在特斯拉餐厅里,它还为马斯克卖苦力,亲自为顾客递上了一份爆米花。 这些光鲜演示的背后,是由一支血肉之躯组成的「数据大军」在默默支撑。
                    
                    11/4/2025 8:39:35 AM
                        
                    实战:SpringBoot+MCP 让你的系统秒变AI助手
                        在人工智能技术快速演进的今天,大语言模型正在重新定义软件与用户的交互方式。 传统的图形界面和复杂API正在被一种更加直观的交互模式所补充——自然语言对话。 用户不再需要翻阅冗长的技术文档或在多层菜单中导航,只需用日常语言表达需求,比如"请帮我筛选去年出版的所有编程类书籍"或"创建一个新用户,姓名为张三,邮箱为[email protected]"。
                    
                    11/4/2025 7:52:48 AM
                        
                    LangChain 大模型应用开发框架:从 RAG 到 Agent 的完整指南
                        在AI大模型时代,Python以23.08%的市场份额连续五年稳居编程语言榜首,在AI、数据科学、深度学习等前沿技术中的应用尤为广泛。 而LangChain作为一个基于大语言模型(LLM)的应用程序开发框架,提供了一整套工具、组件和接口,简化了创建大模型应用程序的过程,已经成为大模型应用开发的事实标准。 本文将从零到一地介绍如何使用LangChain构建从检索增强生成(RAG)到智能代理(Agent)的完整应用。
                    
                    11/4/2025 7:15:00 AM
                        用户007
                    AI聊天机器人正滑向隐私危机
                        AI聊天工具正逐渐占据办公室场景,但隐私成本几何?用户在聊天界面中常感到匿名,可能会在未意识到风险的情况下分享个人数据。 网络犯罪分子也发现了同样的漏洞,AI聊天对话中分享的信息最终引发重大数据泄露事件可能只是时间问题。 当工作场所工具缺乏监管时专家警告称,用户在使用ChatGPT或Gemini等平台时应保持警惕,因为看似简单的交流仍可能留下持久的数据痕迹。
                    
                    11/4/2025 7:00:00 AM
                        Sinisa
                    别慌,为什么人工智能无法取代你
                        在人工智能驱动的世界中,发现那些让你保持价值的独特人类特质。 如今,人人都在担忧:“人工智能会不会抢走我的饭碗? ” 事实上,人工智能领域充斥着大量的炒作。
                    
                    11/4/2025 5:00:00 AM
                        晓晓
                    AI驱动的漏洞搜寻正在颠覆赏金行业
                        安全研究人员正利用大语言模型实现侦察自动化、逆向工程API,并以前所未有的速度扫描代码库。 通过将AI工具应用于从模糊测试、漏洞利用自动化到跨代码库和网站的模式识别等各种技术,研究人员正以更快的速度发现漏洞。 HackerOne高级漏洞赏金计划经理Crystal Hazen表示:“过去一年,我们进入了所谓的‘仿生黑客’时代,即人类研究人员利用自主式AI系统收集数据、进行分类并推进发现。
                    
                    11/4/2025 5:00:00 AM
                        John
                    RAG系统文本分块实用指南:借助ChunckerFlow突破分块困境
                        检索增强生成(RAG)已成为现代AI应用的核心,从问答系统到智能文档检索均有广泛应用。 但一个常被忽视的关键问题正悄然破坏RAG性能:文本分块质量低下。 分块决策会贯穿整个RAG流水线——分块过大导致检索精度下降,过小则丢失关键上下文,边界不当则割裂完整语义。
                    
                    11/4/2025 4:15:00 AM
                        大模型之路
                    
        资讯热榜
    
    
        标签云
    
    
                    
                    AI
                    
                    
                    人工智能
                    
                    
                    OpenAI
                    
                    
                    AIGC
                    
                    
                    模型
                    
                    
                    ChatGPT
                    
                    
                    DeepSeek
                    
                    
                    谷歌
                    
                    
                    AI绘画
                    
                    
                    大模型
                    
                    
                    机器人
                    
                    
                    数据
                    
                    
                    Midjourney
                    
                    
                    开源
                    
                    
                    Meta
                    
                    
                    微软
                    
                    
                    智能
                    
                    
                    AI新词
                    
                    
                    用户
                    
                    
                    GPT
                    
                    
                    学习
                    
                    
                    技术
                    
                    
                    智能体
                    
                    
                    马斯克
                    
                    
                    Gemini
                    
                    
                    图像
                    
                    
                    Anthropic
                    
                    
                    英伟达
                    
                    
                    AI创作
                    
                    
                    训练
                    
                    
                    LLM
                    
                    
                    论文
                    
                    
                    代码
                    
                    
                    算法
                    
                    
                    Agent
                    
                    
                    AI for Science
                    
                    
                    芯片
                    
                    
                    苹果
                    
                    
                    腾讯
                    
                    
                    Claude
                    
                    
                    Stable Diffusion
                    
                    
                    蛋白质
                    
                    
                    开发者
                    
                    
                    生成式
                    
                    
                    神经网络
                    
                    
                    xAI
                    
                    
                    机器学习
                    
                    
                    3D
                    
                    
                    RAG
                    
                    
                    人形机器人
                    
                    
                    研究
                    
                    
                    AI视频
                    
                    
                    大语言模型
                    
                    
                    生成
                    
                    
                    具身智能
                    
                    
                    Sora
                    
                    
                    工具
                    
                    
                    GPU
                    
                    
                    百度
                    
                    
                    华为
                    
                    
                    计算
                    
                    
                    字节跳动
                    
                    
                    AI设计
                    
                    
                    AGI
                    
                    
                    大型语言模型
                    
                    
                    搜索
                    
                    
                    视频生成
                    
                    
                    场景
                    
                    
                    深度学习
                    
                    
                    架构
                    
                    
                    生成式AI
                    
                    
                    DeepMind
                    
                    
                    编程
                    
                    
                    视觉
                    
                    
                    Transformer
                    
                    
                    预测
                    
                    
                    AI模型
                    
                    
                    MCP
                    
                    
                    伟达
                    
                    
                    亚马逊