LLM

舍弃CUDA编程！CMU等用几十行代码将LLM编译成巨型内核，推理延迟可降6.7倍

在 AI 领域，英伟达开发的 CUDA 是驱动大语言模型（LLM）训练和推理的核心计算引擎。不过，CUDA 驱动的 LLM 推理面临着手动优化成本高、端到端延迟高等不足，需要进一步优化或者寻找更高效的替代方案。近日，CMU 助理教授贾志豪（Zhihao Jia）团队创新玩法，推出了一个名为「Mirage Persistent Kernel（MPK）」的编译器，可以自动将 LLM 转化为优化的巨型内核（megakernel），从而将 LLM 推理延迟降低 1.2 到 6.7 倍。

6/23/2025 8:55:00 AM

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

这不是段子，而是正在发生的现象。大语言模型解决不等式证明问题时，可以给出正确答案，但大多数时候是靠猜。推理过程经不起推敲，逻辑完全崩溃。

6/20/2025 8:54:00 AM

谢赛宁团队新基准让LLM集体自闭，DeepSeek R1、Gemini 2.5 Pro都是零分

近年来，LLMs（如 GPT-4、Claude、Gemini 等）在代码生成领域取得了显著进展。它们不仅在经典编程基准（如 HumanEval）中表现出色，甚至在某些测试中超越了人类平均水平。这促使许多研究者开始宣称：LLM 已经胜过人类程序员，尤其是在竞赛编程领域。

6/19/2025 9:04:00 AM

告别玄学选LLM！弗吉尼亚理工选型框架入选ICML 2025

还在靠“开盲盒”选择大模型？来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM——大幅提升选型效果的同时，成本却降低近90%。众所周知，在大模型如雨后春笋般爆发的时代，选型成了AI工程师和研究员最大的痛点之一：模型多如牛毛，怎么选才不会“踩坑”？

6/19/2025 8:55:00 AM

字节Seed提出序贯策略优化方法，突破同传“质量-延迟”权衡问题

AI字幕总是慢半拍，质量和延迟难以平衡是业界老问题了。为此，香港中文大学、字节跳动Seed和斯坦福大学研究团队出手，提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。在70亿参数（7B）规模上实现SOTA。

6/19/2025 8:49:00 AM

在扩展GenAI应用前，请先绘制你的LLM使用与风险版图

他解释说，随着GenAI功能的普及，企业必须实施保护措施来管理风险，特别是在输入/输出处理和微调实践方面，尽早建立这些控制措施可以确保安全、合规地采用AI，同时不损害创新。对于那些已经推出了GenAI功能的团队，他们首先应该审计或检查什么?GenAI . 以传统威胁模型经常忽视的方式扩大了你的攻击面，新进入这一领域的安全从业人员应该首先了解这类新的漏洞以及如何防御它们，一个好的起点是OWASP为大型语言模型(LLM)制定的十大安全风险列表，其中概述了常见的漏洞，如提示注入、数据泄露和不安全的插件设计。

6/19/2025 1:30:00 AM

Mirko

规模化应用生成式 AI 前，需先绘制 LLM 使用与风险图谱

在本次Help Net Security访谈中，The Motley Fool应用与云安全总监Paolo del Mundo探讨了企业如何通过建立防护机制来扩展AI应用规模，同时降低提示注入、不安全输出和数据泄露等生成式AI特有风险。已部署AI功能团队的首步审计重点生成式AI以传统威胁模型常忽视的方式扩大了攻击面。新入行的安全从业者应首先了解这类新型漏洞及其防御方法。

6/18/2025 9:50:09 AM

Gy0un

AI记忆革命：能否突破数据牢笼，媲美人脑的适应性？

译者 | 朱先忠审校 | 重楼本文要讨论什么内容？ Meta公司努力开发出的CoCoMix（Continuous Concept Mixing：连续概念混合，出自Jihoon等人2025年发表的论文，见【引文1】）框架实现了概念学习，即学习单词背后的概念而不是仅仅预测下一个标记，从而使其具有极强的可操控性和可解释性。但是，依然存在一个核心问题：即使是概念上非常出色的模型，在训练之后的实际部署中，也可能难以应对细微差别或事实性的回忆挑战。

6/18/2025 8:26:01 AM

朱先忠

使用谷歌的最新应用程序，免费本地运行LLM

译者 | 布加迪审校 | 重楼谷歌的Edge Gallery刚刚让AI界迎来了巨大飞跃。就在上周，谷歌悄然发布了AI Edge Gallery，这是一款普及AI的应用程序。谷歌Edge AI可以直接在我们的智能手机上执行强大的语言模型，摆脱依赖云的局面，而且不收订阅费。

6/18/2025 8:12:14 AM

布加迪

AM-Thinking-v1：解锁 32B 模型推理潜力的密码

大家好，我是肆〇柒。本篇想和大家分享一个后训练的模型案例 ——AM-Thinking-v1 模型。这个模型是由贝壳（Ke.com）公司旗下的 a-m-team 团队开发的，他们一直致力于探索 AGI 技术。

6/18/2025 2:30:00 AM

肆零柒

LLM 翻车现场！ChatGPT 挑战 1979《Video Chess》惨败：连车马象都认错

一场 ChatGPT 对战 Atari 2600 的象棋对局火了。具体而言，在一场看似轻松的“AI玩具对决”里，ChatGPT输给了Atari 2600 的象棋引擎，对手只是一台48年前、频率1.19 MHz的8位主机。图片起初，这只是Robert Jr.

6/17/2025 5:16:51 PM

鹅厂实习生血泪贴：Agent/RAG 黑科技，真相竟是这样！

作者 | 33号实验室/knnwang被Agent/RAG吊打？你缺的不是智商，是这篇文章！亲历鹅厂IEG/WXG项目实战，大三菜鸟用血泪debug记录，撕开AI基石真面目 → 黑科技本质 = ______！

6/17/2025 9:15:07 AM

腾讯技术工程

迈向人工智能的认识论：如何推理对齐和改变他们的思维

要理解 LLM 的行为方式，回顾一下其架构基础知识会很有帮助：Transformer。 Vaswani等人提出的 Transformer 从根本上建立在自注意力层之上。每一层都允许模型在输入以及之前生成的输出token 之间动态地重新分配注意力，这意味着它可以在每一步检索它认为相关的任何信息。

6/17/2025 6:21:13 AM

晓晓

ACL 2025｜为什么你设计的 Prompt 会成功？新理论揭示大模型 Prompt 设计的奥秘与效能

本文共同一作是张翔和曹峻泰。张翔是英属哥伦比亚大学研究生，主要研究兴趣集中在大模型推理和 AI for Science；曹峻泰是英属哥伦比亚大学研究生，主要研究兴趣集中在大模型推理和可解释性研究；本文通讯作者是来自纽约大学石溪分校的助理教授尤晨羽，以及来自 Meta Gen AI 的研究员丁渡鉴。近年来，大型语言模型（LLM）在自然语言处理领域取得了革命性进展。

6/16/2025 2:44:14 PM

Apple Again Criticized for AI Reasoning Ability: GitHub Celebrity Rebuttal: This Is Not the Real Picture of Reasoning Ability!

Recently, Apple published a controversial paper pointing out significant defects in the reasoning abilities of current large language models (LLMs). This view quickly sparked heated discussions on social media, especially among senior software engineer Sean Goedecke from GitHub, who strongly opposed this conclusion. He argued that Apple's findings were overly simplistic and could not fully reflect the capabilities of reasoning models.Apple's paper highlighted that LLMs perform inconsistently when tackling benchmark tests such as mathematics and programming.

6/16/2025 9:49:06 AM

AI在线

Thinkless框架：让LLM学会“聪明偷懒”的智慧

大家好，我是肆〇柒。今天，我想和大家聊一下，我看到关于自适应思考的另外一片论文，它介绍了Thinkless 框架，并且还有开源仓库。今天我们要了解的 Thinkless 这个框架，由新加坡国立大学的研究人员提出，它能够巧妙地解决当前推理语言模型（LLM）在处理简单问题时过度推理、浪费资源的难题。

6/16/2025 9:40:48 AM

肆零柒

苹果《思考的错觉》再挨批，Claude与人类共著论文指出其三大关键缺陷

几天前，苹果一篇《思考的错觉》论文吸睛无数又争议不断，其中研究了当今「推理模型」究竟真正能否「推理」的问题，而这里的结论是否定的。论文中写到：「我们的研究表明，最先进的 LRM（例如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking）仍然未能发展出可泛化的解决问题能力 —— 在不同环境中，当达到一定复杂度时，准确度最终会崩溃至零。」不过，这篇论文的研究方法也受到了不少质疑，比如我们的一位读者就认为「给数学题题干加无关内容，发现大模型更容易答错，而质疑大模型不会推理」的做法并不十分合理。

6/16/2025 8:48:00 AM

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

近段时间，关于 AI 自我演进/进化这一话题的研究和讨论开始变得愈渐密集。本月初我们就曾梳理报道了一些，包括 Sakana AI 与不列颠哥伦比亚大学等机构合作的「达尔文-哥德尔机（DGM）」、CMU 的「自我奖励训练（SRT）」、上海交通大学等机构提出的多模态大模型的持续自我改进框架「MM-UPT」、香港中文大学联合 vivo 等机构的自改进框架「UI-Genie」。那之后，相关研究依然还在不断涌现，以下拼图展示了一些例子：而前些天，OpenAI CEO、著名 𝕏 大 v 山姆・奥特曼在其博客《温和的奇点（The Gentle Singularity）》中更是畅想了一个 AI/智能机器人实现自我改进后的未来。

6/16/2025 8:46:00 AM

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评 LangChain V1.0 深度解析：手把手带你跑通全新智能体架构深度拆解！这可能是全网最详细的AI视频创作教程

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体 Gemini 马斯克 Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 芯片腾讯 Stable Diffusion 蛋白质开发者具身智能 xAI 生成式神经网络机器学习 3D 人形机器人 AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为计算字节跳动 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind 特斯拉场景 AI模型深度学习亚马逊架构 Transformer MCP 编程视觉预测

LLM