AI在线 AI在线

LLM

揭秘扩散模型:深入了解DALL-E和Midjourney背后的技术

译者 | 布加迪审校 | 重楼本文介绍了最流行的图像生成模型架构之一的技术层面。 近年来,生成式AI模型已成为一颗冉冉升起的新星,尤其是随着ChatGPT等大语言模型(LLM)产品闪亮登场。 这类模型使用人类能够理解的自然语言,可以处理输入,并提供合适的输出。
8/20/2025 7:47:19 AM
布加迪

如何训练你的大型语言模型

打造一个听起来很智能的大型语言模型 (LLM) 助手,就像在反复塑造泥塑一样。 你从一块泥土开始,把它挤压成一个可行的结构,然后开始精雕细琢,直到最终成品。 越接近最终成品,那些精妙的点缀就越重要,正是这些点缀决定了最终成品是杰作还是恐怖谷效应。
8/19/2025 10:10:46 AM
晓晓

大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。 这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。 一个最基础、却也最关键的问题是:在评判一个模型是否“入戏”之前,AI裁判能准确识别出对话中到底是谁在说话吗?
8/18/2025 9:00:00 AM

OpenAI回归开源:gpt-oss-120b和gpt-oss-20b完整指南

译者 | 陈峻审校 | 重楼本文将向你介绍OpenAI新发布的两个开源模型--gpt-oss-120b和gpt-oss-20b,它们的特点,以及在何种场景下该使用哪个模型。 近期,OpenAI发布了两个开源的大语言模型(LLM)--gpt-oss-120b和gpt-oss-20b。 它们是自GPT-2以来,由OpenAI第一个公开许可的LLM。
8/15/2025 8:17:41 AM
陈峻

突袭GPT-5!Claude甩出百万上下文王炸!开发者吵翻:超出LLM极限,贵还没价值?谷歌大佬分享:用好上下文的四个编程技巧

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)深夜更新! Claude Sonnet 4 已经支持百万级上下文窗口了! 这次升级,将上下文从原本的 20 万 Token 一口气提升 5 倍——百万上下文究竟有多大?
8/13/2025 1:38:08 PM
伊风

CoT 的边界:模式匹配还是逻辑推理?数据分布如何决定CoT的成败

大家好,我是肆〇柒。 思维链,可能是大家刚接触“本届模型”(transformer 为架构的 LLM),学 prompt 时的一个必修课,大语言模型可以仿照人的链式思考模式来生成推理链,以辅助推理和解决问题。 我看到一个研究论文,它从数据分布视角,深入剖析了大型语言模型(LLM)思维链(CoT)推理的本质,还挺有意思的,对我们理解 CoT 和模型推理边界,具有原理级的认知帮助。
8/13/2025 10:21:50 AM
肆零柒

如何在你的计算机上运行OpenAI新的gpt-oss-20b LLM?

译者 | 布加迪审校 | 重楼你只需要24GB 的内存,除非你的GPU自带VRAM,否则需要相当的耐心。 上周,OpenAI发布了两款流行的开放权重模型,均名为gpt-oss。 由于你可以下载它们,因此可以在本地运行。
8/13/2025 7:25:57 AM
布加迪

告别上下文溢出:MemTool如何优化LLM智能体的工具记忆管理

大家好,我是肆〇柒。 近期,普华永道(PricewaterhouseCoopers)商业技术与创新办公室的研究团队在LLM智能体技术领域取得了一些成果,他们提出的MemTool框架为解决多轮对话中动态工具调用的短期记忆管理问题提供了系统性解决方案。 关键发现包括:推理型LLM在自主代理模式下可实现90-94%的工具移除效率工作流和混合模式实现了跨模型一致的高移除效率(90% )工具移除效率与任务完成率存在解耦特性,需根据场景权衡选择系统提示工程和模型选择对MemTool性能有决定性影响在构建智能对话系统时,你是否遇到过这样的困扰:当LLM 智能体与用户进行多轮对话时,随着对话轮次增加,系统不断加载新工具却无法有效清理旧工具,导致上下文窗口迅速饱和,最终影响对话质量和系统稳定性?
8/8/2025 2:06:48 PM
肆零柒

Self-Play Critic:以“对抗博弈”创新大语言模型推理评估

大家好,我是肆〇柒。 今天,我想和大家聊一项创新的评估思路——Self-Play Critic(SPC)。 大型语言模型(LLM)目前已成为我们生活和工作中不可或缺的工具。
8/8/2025 3:00:00 AM
肆零柒

硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构

自首次提出 GPT 架构以来,转眼已经过去了七年。 如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。 当然,细节上仍有不少演进。
8/7/2025 9:40:00 PM
机器之心

硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构

自首次提出 GPT 架构以来,转眼已经过去了七年。 如果从 2019 年的 GPT-2 出发,回顾至 2024–2025 年的 DeepSeek-V3 和 LLaMA 4,不难发现一个有趣的现象:尽管模型能力不断提升,但其整体架构在这七年中保持了高度一致。 当然,细节上仍有不少演进。
8/7/2025 9:40:00 PM
机器之心

揭秘大模型的魔法:实现带可训练权重的自注意力机制

大家好,我是写代码的中年人。 上一篇我们实现了一个“无可训练参数”的注意力机制,让每个词都能“看看别人”,计算出自己的上下文理解。 虽然实现起来不难,但它只是个“玩具级”的注意力,离真正的大模型还差了几个“亿”个参数。
8/4/2025 9:31:49 AM
写代码的中年人

全新的AI模型带来更快速的漏洞检测方案

一组研究人员开发出一种名为White-Basilisk的新型AI模型,该模型检测软件漏洞的效率高于许多大型系统。 当前,开发人员和安全团队在保障复杂代码库安全方面面临着越来越大的压力,且往往缺乏部署大规模AI工具的资源,该模型正是在这一背景下发布的。 小模型,大成效与需要数十亿参数和强大计算能力的大型语言模型(LLM)不同,White-Basilisk模型非常紧凑,仅有2亿个参数,然而,在多个用于漏洞检测的公共基准测试中,它的表现优于规模超过其30倍的模型,这至少在专门的安全任务方面,对“模型越大越好”的观点提出了质疑。
8/1/2025 2:38:14 PM
Mirko Zorz

基于Dify动态解析异构银行流水:架构拆解→风控报告生成

两个月前,知识星球中有个关于银行流水分析的提问:想问问对于流水识别是否有比较好的解决方案呢? 我们现在想用大模型能够对多家银行进行识别,但是发现识别准确率很一般,经常出现表格识别数据错乱的情况,而且效率也不太行这个问题在企业信贷的贷前风控场景经常出现,不同银行的流水格式一般有所区别,而且一家企业往往涉及多家银行的账户使用。 这也导致了流水解析和分析工作复杂度确实高很多。
7/31/2025 6:57:27 AM
韦东东

让 Gemini CLI 跑在你的私有大模型上

前不久,Google 开源了 Gemini CLI 工具,它允许用户通过命令行与 Gemini AI 模型进行高效交互。 然而,在实际应用中,出于安全性和成本控制的考虑,很多场景更适合使用本地部署的大语言模型(LLM)。 因此,让 Gemini CLI 支持连接本地 LLM 就显得尤为重要。
7/31/2025 6:45:00 AM
Andflow

Bill Inmon:为什么你的数据湖需要的是 BLM,而不是 LLM

当你尝试使用文本生成 AI 解决结构化数据问题时,你投资的数据湖就变成了‘污水池’ 。 ” —— Bill Inmon根据 Gartner 的研究,85% 的大数据项目都失败了。 2023 年,规模达 152 亿美元的数据湖市场增长了 20% 以上,但大多数企业却无法从文本数据中提取价值。
7/31/2025 3:00:00 AM
晓晓

现代LLM架构设计一览:从DeepSeek-V3到Kimi K2

主要内容现代LLM架构的演进主要围绕以下几个核心目标:提高推理效率:通过GQA、MLA、滑动窗口注意力、MoE等技术减少内存占用和计算量。 增强训练稳定性:通过归一化层(如RMSNorm)的放置和QK-Norm等技术优化训练过程。 优化模型容量与性能:通过MoE实现更大参数量和知识吸收能力,同时保持推理效率。
7/31/2025 1:00:00 AM
常华Andy

LLM记忆终极指南:从上下文窗口到高级智能体记忆系统

当你向聊天机器人报上姓名,片刻后它却再次询问"你叫什么"时,这种数字失忆现象暴露出人工智能的关键短板:大型语言模型(LLMs)本质上是无状态的。 它们像金鱼一样"记不住"过去的对话,每次交互都被视为全新事件。 ChatGPT等应用展现的记忆能力,实则是通过在每轮对话中强行插入历史记录制造的 illusion(假象)。
7/29/2025 12:00:00 AM
大模型之路