AI在线 AI在线

LLM

面向RAG与LLM的分块策略权威指南:从基础原理到高级实践

在现代人工智能系统架构中,当大型语言模型(LLMs)和向量数据库吸引着大部分目光时,一个更为基础的处理过程正在幕后默默工作——它最终决定了系统输出的质量、可靠性和相关性。 这个过程就是分块(Chunking):在信息到达模型之前对其进行策略性分割的关键步骤。 作为RAG(检索增强生成)系统的"隐藏架构",分块技术的优劣直接影响着LLM的理解、推理和回答能力,堪称AI应用的"智能基石"。
6/30/2025 4:15:00 AM
大模型之路

Gary Marcus惊世之言:纯LLM上构建AGI彻底没了希望!MIT、芝大、哈佛论文火了

今天,著名的人工智能学者和认知科学家 Gary Marcus 转推了 MIT、芝加哥大学、哈佛大学合著的一篇爆炸性论文,称「对于 LLM 及其所谓能理解和推理的神话来说,情况变得更糟了 —— 而且是糟糕得多。 」这项研究揭示了一种被称为「波将金式」(Potemkins)的推理不一致性模式(见下文图 1)。 研究表明,即使是像 o3 这样的顶级模型也频繁犯此类错误。
6/29/2025 1:43:24 PM
机器之心

无需数据标注:RLSC 如何用“自我信心”优化语言模型

大家好,我是肆〇柒。 当下,大型语言模型(LLM)如 ChatGPT、Qwen 等展现出了卓越的推理能力,能够在多种任务中提供高质量的解决方案。 然而,尽管这些模型具有强大的基础能力,但要使其行为与特定任务目标精准对齐,后训练优化仍然是不可或缺的关键步骤。
6/27/2025 4:00:00 AM
肆零柒

LLM 的反馈困境:为何大型语言模型难以完全吸收外部建议

大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)正以前所未有的速度改变着我们处理信息和解决问题的方式。 然而,在当下落地 AI 应用时,一个关键问题逐渐浮出水面:LLM 是否能够真正理解并整合外部反馈,从而实现自我改进并达到其性能的极限?
6/25/2025 10:21:08 AM
肆零柒

Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?

普林斯顿大学计算机科学系助理教授陈丹琦团队又有了新论文了。 近期,诸如「长思维链」等技术的兴起,带来了需要模型生成数万个 token 的全新工作负载。 大多数语言模型都基于 Transformer 架构,其在进行自回归解码(即逐字生成文本)时,需要将所有先前 token 的注意力状态存储在一个名为 KV 缓存的内存区域中。
6/25/2025 9:15:38 AM

为什么你的 AI 数据战略应该包含 MCP

随着代理系统变得越来越复杂,企业能力在这些系统中作为工具出现,建立明确且一致的规则对于自主工作流程的成功至关重要。 模型上下文协议 (MCP) 为代理、LLM 和企业系统提供通用语言。 将 MCP 纳入 AI 数据战略的企业将能够构建新功能,确保信任和可审计性,并适应快速发展的创新。
6/25/2025 2:30:00 AM
晓晓

LLM进入「拖拽时代」!只靠Prompt,几秒定制一个大模型,效率飙升12000倍

现在的大模型基本都具备零样本泛化能力,但要在真实场景中做特定的适配,还是得花好几个小时来对模型进行微调。 即便是像LoRA这样的参数高效方法,也只能缓解而不能消除每个任务所需的微调成本。 刚刚,包括尤洋教授在内的来自新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员,提出了一种全新的「拖拽式大语言模型」——Drag-and-Drop LLMs!
6/24/2025 1:52:38 PM

大型语言模型微调全攻略:从理论到实战的终极指南

译者|朱先忠审校|重楼微调是将预先在海量通用数据上训练好的大型语言模型,在更小、更具体的领域或任务数据集上进一步训练的过程。 其核心在于利用预训练模型获得的通用语言理解能力,通过特定数据进行针对性调整,使模型能深刻理解专业术语、领域规则和任务要求,从而生成更准确、更符合特定需求的输出。 引言想象你拥有一个像GPT-3或Llama 3这样强大的LLM,它已在互联网规模的文本上进行了预训练,能回答一般问题、创作文本、总结文章、翻译语言。
6/24/2025 8:52:54 AM
朱先忠

MemOS:打破 LLM “记忆”孤岛,实现 Agent 协同智能

大家好,我是肆〇柒。 在浏览论文时,我发现了一款用于构建 AI 应用的infra框架,它可以应用在 Agent 的 Memory 的管理构建上。 今天,我就为大家介绍一下这款框架 ——MemOS。
6/23/2025 9:26:24 AM
肆零柒

舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍

在 AI 领域,英伟达开发的 CUDA 是驱动大语言模型(LLM)训练和推理的核心计算引擎。 不过,CUDA 驱动的 LLM 推理面临着手动优化成本高、端到端延迟高等不足,需要进一步优化或者寻找更高效的替代方案。 近日,CMU 助理教授贾志豪(Zhihao Jia)团队创新玩法,推出了一个名为「Mirage Persistent Kernel(MPK)」的编译器,可以自动将 LLM 转化为优化的巨型内核(megakernel),从而将 LLM 推理延迟降低 1.2 到 6.7 倍。
6/23/2025 8:55:00 AM

AI哪怕答案正确,逻辑链却惨不忍睹,奥数级不等式证明成功率不到50%| 斯坦福&伯克利&MIT

这不是段子,而是正在发生的现象。 大语言模型解决不等式证明问题时,可以给出正确答案,但大多数时候是靠猜。 推理过程经不起推敲,逻辑完全崩溃。
6/20/2025 8:54:00 AM

谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分

近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。 它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超越了人类平均水平。 这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。
6/19/2025 9:04:00 AM

告别玄学选LLM!弗吉尼亚理工选型框架入选ICML 2025

还在靠“开盲盒”选择大模型? 来自弗吉尼亚理工大学的研究人员推出了个选型框架LensLLM——大幅提升选型效果的同时,成本却降低近90%。 众所周知,在大模型如雨后春笋般爆发的时代,选型成了AI工程师和研究员最大的痛点之一:模型多如牛毛,怎么选才不会“踩坑”?
6/19/2025 8:55:00 AM

字节Seed提出序贯策略优化方法,突破同传“质量-延迟”权衡问题

AI字幕总是慢半拍,质量和延迟难以平衡是业界老问题了。 为此,香港中文大学、字节跳动Seed和斯坦福大学研究团队出手,提出了一种面向同声传译的序贯策略优化框架 (Sequential Policy Optimization for Simultaneous Machine Translation, SeqPO-SiMT)。 在70亿参数(7B)规模上实现SOTA。
6/19/2025 8:49:00 AM

在扩展GenAI应用前,请先绘制你的LLM使用与风险版图

他解释说,随着GenAI功能的普及,企业必须实施保护措施来管理风险,特别是在输入/输出处理和微调实践方面,尽早建立这些控制措施可以确保安全、合规地采用AI,同时不损害创新。 对于那些已经推出了GenAI功能的团队,他们首先应该审计或检查什么?GenAI . 以传统威胁模型经常忽视的方式扩大了你的攻击面,新进入这一领域的安全从业人员应该首先了解这类新的漏洞以及如何防御它们,一个好的起点是OWASP为大型语言模型(LLM)制定的十大安全风险列表,其中概述了常见的漏洞,如提示注入、数据泄露和不安全的插件设计。
6/19/2025 1:30:00 AM
Mirko

规模化应用生成式 AI 前,需先绘制 LLM 使用与风险图谱

在本次Help Net Security访谈中,The Motley Fool应用与云安全总监Paolo del Mundo探讨了企业如何通过建立防护机制来扩展AI应用规模,同时降低提示注入、不安全输出和数据泄露等生成式AI特有风险。 已部署AI功能团队的首步审计重点生成式AI以传统威胁模型常忽视的方式扩大了攻击面。 新入行的安全从业者应首先了解这类新型漏洞及其防御方法。
6/18/2025 9:50:09 AM
Gy0un

AI记忆革命:能否突破数据牢笼,媲美人脑的适应性?​

译者 | 朱先忠审校 | 重楼本文要讨论什么内容? Meta公司努力开发出的CoCoMix(Continuous Concept Mixing:连续概念混合,出自Jihoon等人2025年发表的论文,见【引文1】)框架实现了概念学习,即学习单词背后的概念而不是仅仅预测下一个标记,从而使其具有极强的可操控性和可解释性。 但是,依然存在一个核心问题:即使是概念上非常出色的模型,在训练之后的实际部署中,也可能难以应对细微差别或事实性的回忆挑战。
6/18/2025 8:26:01 AM
朱先忠

使用谷歌的最新应用程序,免费本地运行LLM

译者 | 布加迪审校 | 重楼谷歌的Edge Gallery刚刚让AI界迎来了巨大飞跃。 就在上周,谷歌悄然发布了AI Edge Gallery,这是一款普及AI的应用程序。 谷歌Edge AI可以直接在我们的智能手机上执行强大的语言模型,摆脱依赖云的局面,而且不收订阅费。
6/18/2025 8:12:14 AM
布加迪