AI在线 AI在线

LLM

LLM的 “自信陷阱”:上下文幻觉如何侵蚀 AI 信任?

一、当AI自信地给出错误答案在数字技术飞速发展的今天,大语言模型(LLMs)正以前所未有的速度渗透到我们生活的方方面面。 从智能客服到医疗诊断,从金融分析到法律文书,这些模型凭借其强大的语言理解和生成能力,似乎正在重塑人类与信息交互的方式。 然而,在其光鲜亮丽的表现背后,一个隐蔽而危险的问题正悄然浮现——上下文幻觉(Contextual Hallucination)。
5/26/2025 1:45:00 AM
大模型之路

进化智能体 AlphaEvolve:科学发现与算法优化的新引擎

大家好,我是肆〇柒。 今天,我们来聊一个非常有趣且前沿的Agent技术——AlphaEvolve。 这是一个由 Google DeepMind 开发的进化型编码智能体,它通过结合大型语言模型(LLM)和进化算法,为科学发现和算法优化带来了另外一种可能性。
5/23/2025 3:00:00 AM
肆零柒

Qwen3:开源 LLM 的革新者与多语言先锋(万字)

“ Qwen3 模型以其卓越的性能、效率和多语言能力,为开源大语言模型领域树立了新的标杆,引领着技术发展的新潮流。 ”大家好,我是肆〇柒。 在 4 月底的时候 Qwen3 开源放出了权重,在热火朝天开炉炼丹后的不久,上周三千问团队又放出了 Qwen3 的技术报告,最近有点小忙,所以虽然第一时间阅读了技术报告,但是一直没有发文出来。
5/22/2025 5:00:00 AM
肆零柒

并行扩展(Parallel Scaling):一种新型语言模型扩展范式(万字)

“ PARSCALE 作为一种新型的语言模型扩展范式,通过增加并行计算次数 P,在保持参数规模几乎不变的情况下,能够显著提升模型的推理能力。 ”大家好,我是肆〇柒。 今天,我们来聊一项可以改变语言模型性能的技术——PARSCALE(Parallel Scaling)。
5/22/2025 4:00:00 AM
肆零柒

策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式

金天,麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)博士五年级学生,师从 Michael Carbin 和 Jonathan Ragan-Kelley。 他主要研究机器学习与编程系统的结合。 此前曾在 IBM Research 主导实现深度神经网络在 IBM 主机上的推理部署。
5/21/2025 1:52:39 PM

解锁 LLM 新高度!一文深度解读 Qwen3 大模型​

1、模型架构Qwen3 系列涵盖 6 种密集型模型和 2 种 MoE 模型,参数规模从 0.6 亿到 2350 亿不等,满足不同下游应用需求。 旗舰模型 Qwen3-235B-A22B 作为 MoE 模型,总参数量达 2350 亿,每 token 激活参数量为 220 亿,在性能与效率间取得平衡。 密集型模型Qwen3 的密集型模型架构与 Qwen2.5 类似,采用 Grouped Query Attention(GQA)和 QK-Norm 改进注意力机制,使用 SwiGLU 作为激活函数,搭配 Rotary Positional Embeddings(RoPE)进行位置编码,采用 RMSNorm 并预归一化。
5/21/2025 9:04:38 AM
Goldma

一文读懂 Vision RAG 模型

众所周知,检索增强生成(RAG)技术已在大语言模型(LLM)应用中证明了其巨大价值,通过从外部知识库检索相关文本信息,显著提升了模型回复的准确性、时效性和可追溯性。 然而,我们所感知和理解的世界并非只由文本构成:大量的现实信息和复杂语境,深刻地蕴含在图像、图表、视频等视觉内容之中。 传统的 RAG 模型难以直接“看”懂并利用这些丰富的视觉信息。
5/20/2025 11:55:22 AM
Luga Lee

深入了解如何通过 LM Studio 优化本地 LLM 性能

Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 如何通过 LM Studio 优化本地 LLM 性能。 在人工智能浪潮席卷全球的 2025年,本地大语言模型(LLM)的性能优化已成为开发者和企业关注的焦点。 随着计算资源需求激增,如何在本地环境中提升模型的效率、降低延迟并释放其最大潜力,成为了亟待解决的关键挑战。
5/20/2025 9:24:15 AM
Luga Lee

理解 RAG 第九部分:针对 RAG 微调 LLM

在“理解 RAG”系列的前几篇文章中,我们重点探讨了检索增强生成的各个方面。 文章中,我们重点介绍了与大型语言模型 (LLM) 集成的检索器组件,该组件用于检索有意义且真实的上下文知识,从而提升 LLM 输入的质量,并最终提升其生成的输出响应。 具体来说,我们学习了如何管理传递给 LLM 的上下文长度、如何优化检索,以及如何利用向量数据库和索引策略来有效地检索知识。
5/20/2025 6:00:00 AM
晓晓

为什么 API 必不可少,而 MCP 暂时是可选的

作者 | Gil Feig编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)AI 助手在产品体验中的重要性日益凸显,而一种新的标准也应运而生,它助力 AI 助手的构建:模型上下文协议 (MCP)。 随着 Anthropic、OpenAI 和 Gemini 等主流大型语言模型 (LLM) 提供商的采用,该协议迅速在更广泛的软件生态系统中获得了广泛关注,各大公司纷纷构建自己的 MCP 服务器。 作为参与构建 MCP 服务器和 API 集成的人员,我亲眼目睹了这种快速采用导致的混乱。
5/19/2025 7:01:14 PM
云昭

研究:AI 聊天机器人在数据总结能力上愈加糟糕,关键细节常被遗漏

随着人工智能技术的迅猛发展,各大 AI 创业公司不断宣称其产品将工作方式和知识获取的方式。 然而,最近一项发表在《皇家学会》上的研究却揭示了新一代 AI 模型在总结文本时存在严重问题,令人担忧。 研究显示,新款 AI 聊天机器人在提供信息时,有高达73% 的概率会遗漏关键信息。
5/19/2025 10:01:05 AM
AI在线

惊现狠人手搓Agent心经!LLM的Tool Use逻辑曝光!简单到爆炸:仅9行代码!网友直呼:难以相信!难点是LLM循环几次!

作者 | 云昭一款 Agent 究竟是怎样让大模型具备“Tool Use”,即工具调用的能力? 今天,有一位正在创建编码 Agent 的狠人出来曝光了这个算法逻辑。 这位狠人,名为 Philip Zeyliger,过去几个月,他和他的团队一直在开发一款名为“Sketch”的 AI 编程助手。
5/16/2025 6:29:19 PM
云昭

支付巨头被打脸!曾放话AI能顶700名人类客服,年省4千万刀;一年后又把员工招回来了!CEO公开认错:我们部署AI的方式太极端了

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)第一批因为AI裁员的公司,又把员工请回来了! 曾信誓旦旦宣布“一个 AI 顶 700 个客服”的 Klarna,如今不得不亲自“打脸”。 图片这家全球领先的“先买后付”平台(类似于国内的“蚂蚁花呗”),在 2024 年接入 OpenAI 技术后,便风风火火地All in AI:暂停招聘、削减成本,甚至计划用 AI 逐步取代多达数千名的外包客服。
5/13/2025 3:17:07 PM
伊风

LLM 学习笔记:最好的学习方法是带着问题去寻找答案

作者:huaxing知其然,然后知其所以然。 本文主要是对学习赛博活佛Andrej Karpathy 7个小时教学视频的总结和拓展阅读笔记,推荐去看原视频,很精彩,链接在文末。 从最常用的聊天应用过程分析开始,引入对话过程原理浅析,再到LLM训练过程;再结合当前主流的应用形式,在得知最新用法的同时,加深对LLM的理解;再谈谈AI的最新重大进展MCP;以及作为JAVAer,在Java领域有哪些前沿能力去整合LLM。
5/13/2025 9:42:46 AM
腾讯技术工程

强迫模型自我争论,递归思考版CoT热度飙升!网友:这不就是大多数推理模型的套路吗?

CoT(Chain-of-thought)大家都很熟悉了,通过模仿「人类解题思路」,进而大幅提升语言模型的推理能力。 这几天,一个名为 CoRT(Chain-of-Recursive-Thoughts)的概念火了! 从名称上来看,它在 CoT 中加入了「递归思考」这一步骤。
5/12/2025 2:24:07 PM

17000字Claude 系统提示启示:Karpathy 揭秘LLM 学习缺失“第三范式” AI寒武纪 2025年05月11日 19:29

来自Andrej Karpathy的最新洞察,以及一份意外曝光的Claude系统提示词引发的思考Andrej Karpathy提出一个观点:我们当前的LLM学习范式中,至少缺失了一个重要环节。 他将其暂称为“系统提示词学习”(System Prompt Learning)他认为:预训练(Pretraining) 是为了让LLM掌握海量知识微调(SL/RL) 则是为了塑造其习惯性行为这两者都涉及模型参数的改变。 但Karpathy指出,很多人类学习更像是“系统提示词”的调整:遇到问题、想出办法,然后用明确的语言“记住”下次如何应对。
5/12/2025 9:13:00 AM

即使最好的保障措施也无法阻止大语言模型被愚弄

在采访中,诺丁汉大学副教授Michael Pound分享了他对与大型语言模型(LLM)相关的网络安全风险的见解。 他讨论了CISO和安全团队在LLM使用方面存在的理解或准备上的最大差距,以及在将LLMs集成到业务运营中时保护敏感数据所需的预防措施。 你认为在LLM使用方面,CISO和安全团队在理解或准备上存在的最大差距是什么?许多安全专业人员——相当合理地——对LLM背后的机器学习原理并不精通。
5/12/2025 8:00:00 AM
Mirko Zorz

RASA:LLM系统中实现智能体记忆的认知框架(含代码)

大语言模型(LLMs)和智能体不断进化,已不再局限于简单的响应和输出,而是在推理与行动能力上持续成熟。 随着智能体架构的进步,记忆、回忆和知识应用的方式,在系统设计和可信度方面变得愈发关键且复杂。 RASA(Role-Aligned Software Architecture,角色对齐软件架构)作为一个创新性的认知框架,为构建具备强大记忆能力、能够灵活适应各种场景的智能体提供了全新的思路和方法。
5/12/2025 2:50:00 AM
大模型之路