理论

对话27岁博导张林峰：模型压缩获CVPR满分有点意外，上海交大像我这样年轻老师很多

上海交大、27岁、最年轻博导，留给张林峰的标签不多了（Doge）。最新引发关注的，是他实实在在的一个论文成果——他们提出了一种新的数据集蒸馏方法，结果获得了CVPR 2025满分。通过引入一个辅助的神经网络，只需一块6年前的2080Ti，就能做大模型数据蒸馏。

5/27/2025 3:44:28 PM

5%参数比肩DeepSeek满血R1！北大“小”模型靠分合蒸馏，打破推理成本下限

只用5%的参数，数学和代码能力竟然超越满血DeepSeek？北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。该模型基于DeepSeek-R1-Distill-Qwen-32B基座，通过结合微调与模型合并技术构建。

5/27/2025 3:40:34 PM

两岁的Llama，最初的14位作者已跑了11个！Mistral成最大赢家

Meta 开源 Llama 模型家族帮助该公司制定了 AI 战略，某种程度上也改变了全世界的大模型格局。然而，令人意想不到的是，短短几年，Llama 的初创者们大多已经转投他处。在 2023 年发表的那篇具有里程碑意义的论文《 LLaMA: Open and Efficient Foundation Language Models 》中，Llama 被推向世界，当时论文共有 14 位作者。

5/27/2025 3:37:46 PM

舍弃自回归！国内团队打造纯扩散多模态大模型LLaDA-V，理解任务新SOTA

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生，导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。

5/27/2025 3:35:02 PM

Claude 4被诱导窃取个人隐私！GitHub官方MCP服务器安全漏洞曝光

被选为GitHub Copilot官方模型后，Claude 4直接被诱导出bug了！一家瑞士网络安全公司发现，GitHub官方MCP服务器正在面临新型攻击——通过在公共仓库的正常内容中隐藏恶意指令，可以诱导AI Agent自动将私有仓库的敏感数据泄露至公共仓库。就是说，当用户使用集成了GitHub MCP的Claude 4 ，用户的私人敏感数据可能遭到泄露。

5/27/2025 3:30:37 PM

低Token高精度！字节复旦推出自适应推理框架CAR

过度依赖CoT思维链推理会降低模型性能，有新解了！来自字节、复旦大学的研究人员提出自适应推理框架CAR，能根据模型困惑度动态选择短回答或详细的长文本推理，最终实现了准确性与效率的最佳平衡。推理能力的进步极大提升了大语言模型（LLMs）和多模态大语言模型（MLLMs）在各类任务中的表现。

5/27/2025 3:28:47 PM

扩散语言模型九倍推理加速！上海交大：KV Cache并非自回归模型的专属技巧

首个用于加速扩散式大语言模型（diffusion-based Large Language Models, 简称 dLLMs）推理过程的免训练方法。上海交通大学EPIC Lab团队提出了一种无需训练、即插即用的高效推理缓存机制：dLLM-Cache。其核心思想在于，在一个多步去噪过程中，复用相邻时间步上变化较小的特征，仅更新那些变化较大的特征，从而实现了计算量的大幅降低，并保持了原有的生成质量。

5/27/2025 3:28:11 PM

让视觉语言模型像o3一样动手搜索、写代码！Visual ARFT实现多模态智能体能力

在大型推理模型（例如 OpenAI-o3）中，一个关键的发展趋势是让模型具备原生的智能体能力。具体来说，就是让模型能够调用外部工具（如网页浏览器）进行搜索，或编写/执行代码以操控图像，从而实现「图像中的思考」。尽管开源研究社区在纯文本的智能体能力方面（比如函数调用和工具集成）已取得显著进展，但涉及图像理解与操作的多模态智能体能力及其对应的评估体系仍处于起步阶段。

5/27/2025 3:23:05 PM

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

随着大语言模型（LLM）能力的快速迭代，传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征，例如价值观、性格和社交智能？如何建立更全面、更可靠的 AI 评估体系？

5/27/2025 3:21:06 PM

Meta「轻量级」KernelLLM颠覆GPU内核生成，8B参数碾压GPT-4o

在AI领域，参数规模曾被视为「性能天花板」。 Meta最新发布的KernelLLM，却用8B参数的「小身板」，在GPU内核生成任务中把200B的GPT-4o按在地上摩擦。这是一个基于Llama 3.1 Instruct进行微调的8B参数模型，旨在将PyTorch模块自动转换为高效的Triton GPU内核。

5/27/2025 3:19:52 PM

新智元

Llama 论文作者“出逃”，14人团队仅剩3人，法国独角兽 Mistral 成最大赢家

他们大多去向了 Mistral，这家总部位于巴黎的 AI 初创公司，正在用“开源速度”反攻 Meta 自己开启的战场。 Llama 曾是 Meta 最具野心的 AI 作品：在 ChatGPT 和 PaLM 占据主流话语权的 2023 年，Meta 用一篇重量级论文和一组开放权重的大语言模型，意外地把开源阵营推上主舞台。而那时，Meta 的 AI 科研团队 FAIR（Fundamental AI Research）也正处于高光时刻。

5/27/2025 3:16:38 PM

Dify携手亚马逊云科技加速全球企业生成式AI应用规模化落地

简单易用的AI应用开发平台Dify通过深度集成亚马逊云科技的生成式AI技术与云服务，在保障性能、合规与全球交付的基础上，显著降低企业在生成式AI应用开发中的技术门槛和部署成本。此外，依托亚马逊云科技遍布全球的基础设施与亚马逊云科技Marketplace，Dify将产品迅速推广至全球，为汽车、制造、零售快消、医疗健康和游戏等多个行业逾百家企业提供服务，助力企业释放生成式AI创新潜力的同时，实现商业价值增长。 Dify是一款发布于 2023 年的大语言模型应用开发平台，涵盖从Agent构建到AI Workflow编排、RAG检索、模型管理等核心技术栈，助力开发者快速实现AI应用落地。

5/27/2025 3:09:14 PM

Github MCP被曝严重安全漏洞！一个恶意问题，让开发者私有仓库裸奔，Agent成内鬼！检测方法来了！提防中招！

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）MCP 虽然火，但安全问题其实一直不容忽视，就连大名鼎鼎的、与Claude 打得火热的 Github MCP 服务器也出事了！刚刚得到消息，昨天，一家名为Invariant 的安全的公司，突然披露了一个有关 GitHub MCP 集成（在 GitHub 上拥有 1.4 万星标）的严重漏洞。图片这个漏洞允许攻击者通过精心构造的 GitHub Issue“劫持”开发者的智能代理（如 Claude Desktop 中的 Claude 4 Opus），并诱导它主动泄露私有仓库的数据。

5/27/2025 11:54:20 AM

云昭

OpenAI顶级工程师Philip Su：几个接地气的程序员职场发展经验

今天的文章发的有点晚，因为我又翻译了一期很长的优质内容。现在每天信息真是太多了，我最近把一些群全部折叠，减少干扰。要不然，每天开着微信，朋友圈、微信群、公众号、视频号，这些小红点把人的时间切的稀巴烂。

5/27/2025 11:52:07 AM

阿颖

这篇 AI Agent 漫游指南，带你建立全面的科技史观

作者 | kong以OpenAI o1与DeepSeek R1为代表的"类Agent"模型、OpenAI DeepResearch为代表的“真Agent”模型，正在重构AI Agent的技术范式。 Agentic Workflow的王座还没坐热，强化学习驱动的端到端Agent模型训练已呼啸而来。未来趋势已指明：模型即产品，工程化Agent的命运将如何？

5/27/2025 10:05:00 AM

腾讯技术工程

与Gemini Diffusion共振！首个扩散式「发散思维链」来了

近年来，思维链在大模型训练和推理中愈发重要。近日，西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤，然后利用基于结果的强化学习去优化整个生成轨迹，最大化模型最终答案的正确率。

5/27/2025 9:00:00 AM

红杉中国xbench全球首发，AI智能体真实战力揭榜！

随着基础模型的快速发展和AI Agent进入规模化应用阶段，被广泛使用的基准测试（Benchmark）却面临一个日益尖锐的问题：想要真实地反映AI的客观能力正变得越来越困难。因此，构建更加科学、长效和如实反映AI客观能力的评测体系，正在成为指引AI技术突破与产品迭代的重要需求。有鉴于此，红杉中国今天正式推出一款全新的AI基准测试工具xbench，并发布论文《xbench: Tracking Agents Productivity ，Scaling with Profession-Aligned Real-world Evaluations》。

5/27/2025 8:50:00 AM

刚刚，北大校友Lilian Weng自曝公司首个产品？一篇论文未发，估值却已90亿

OpenAI前研究员大佬、如今的Thinking Machines Lab联创Lilian Weng，刚刚转发了一个神秘产品——一个看似仪表盘的东西。或许，这就将是公司即将打造的第一个爆品？这个产品所揭示的理念，可谓十分惊人——在训练过程中，研究人员可以直接用它来手动调整所有的超参数了！

5/27/2025 8:40:00 AM

资讯热榜

DeepRare 重磅发布：全球首个可循证智能体诊断系统，直击医学Last Exam难题李沐B站更新了！教你手搓语音大模型，代码全开源还能在线试玩 AI时代设计师如何突围？D20峰会揭示未来设计师生存法则考试提分新工具：网页版 ChatGPT 测试“学习和掌握”功能，AI 助你成学霸我测试了100+案例，教你零基础复刻外网刷屏的 AI 视频（附提示词模板）终结Coding？ShellAgent三句话造出马斯克同款「AI女友」！一盘大棋！OpenAI「截胡」IMO金牌，奥特曼为GPT-5献上「核弹级」预热阿里云通义千问 Qwen3-Coder 宣布开源：480B 参数、原生支持 256K 上下文，可与 Claude Sonnet4 媲美

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini AI创作马斯克论文英伟达 Anthropic 智能体代码算法 Stable Diffusion 训练芯片开发者蛋白质腾讯生成式苹果 LLM 神经网络 AI新词 Claude 3D 研究生成机器学习 AI for Science xAI 计算人形机器人 Agent Sora AI视频 GPU 百度 AI设计华为搜索大语言模型工具场景字节跳动 RAG 大型语言模型具身智能预测深度学习伟达视觉 Transformer 神器推荐 AGI 亚马逊视频生成 Copilot DeepMind 模态架构 LLaMA

理论