AI在线 AI在线

LLM

基于工作记忆的认知测试显示LLM的检索局限:100%混淆无效信息与正确答案

本文发现一个影响所有大型语言模型(LLMs)的信息检索问题。 该任务对人类没有难度,但是所有 LLM 均出现显著错误。 并对全局记忆(memory)和长推理任务(long reasoning)造成显著损害。
7/10/2025 4:11:00 PM
机器之心

MCP协议曝出大漏洞:会泄露整个数据库

所有使用MCP协议的企业注意:你的数据库可能正在“裸奔”! 最新研究显示,该协议存在重大漏洞,攻击者可利用LLM的指令/数据混淆漏洞直接访问数据库。 如果用户提供的“数据”被精心伪装成指令,模型很可能会将其作为真实指令执行。
7/10/2025 2:53:40 PM

ASTRO:赋予语言模型搜索式推理能力的创新框架

大家好,我是肆〇柒。 当下大型语言模型(LLM)已深度融入诸多领域,从智能写作到语言翻译,从智能客服到数据分析,其影响力无处不在。 然而,在处理复杂问题时,推理能力的强弱直接决定了模型的实用性。
7/10/2025 9:14:11 AM
肆零柒

ChatGPT 在航天器自主控制模拟竞赛中获佳绩,展现大语言模型新潜力

AI在线 7 月 7 日消息,近日,一项关于利用大型语言模型(LLM)进行航天器自主控制的研究引起关注。 研究人员通过模拟竞赛的方式,测试了 ChatGPT 在航天器操控方面的表现。 结果显示,ChatGPT 在自主航天器模拟竞赛中取得了第二名的优异成绩,仅次于一个基于不同方程的模型。
7/7/2025 10:19:28 PM
远洋

LeCun团队揭示LLM语义压缩本质:统计压缩牺牲细节

当我们读到“苹果”“香蕉”“西瓜”这些词,虽然颜色不同、形状不同、味道也不同,但仍会下意识地归为“水果”。 哪怕是第一次见到“火龙果”这个词,也能凭借语义线索判断它大概也是一种水果。 这种能力被称为语义压缩,它让我们能够高效地组织知识、迅速地对世界进行分类。
7/4/2025 9:53:57 AM

本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

今年上半年,随着DeepSeek R1的发布,国内大模型的应用迎来井喷式的发展,各种大模型的信息满天飞,连普通消费者都多多少少被大模型一体机给安利了,特别是满血版的DeepSeek 671B。 然而理性地来讲,671B模型的部署成本动辄百万起步,远超一般企业的IT预算。 同时,我们对大模型的使用与功能挖掘还停留在初期阶段,特别是在后千模大战的时代,32B/70B等中档模型已经可以满足许多企业的需求。
7/4/2025 9:06:00 AM

登上热搜!Prompt不再是AI重点,新热点是Context Engineering

最近「上下文工程」有多火? Andrej Karpathy 为其打 Call,Phil Schmid 介绍上下文工程的文章成为 Hacker News 榜首,还登上了知乎热搜榜。 之前我们介绍了上下文工程的基本概念,今天我们来聊聊实操。
7/4/2025 9:05:00 AM

从RAG到Agentic RAG:构建更智能的检索增强系统

在人工智能领域,大型语言模型(LLMs)正以前所未有的速度渗透到各行各业的应用中。 从智能客服到企业知识管理系统,从内容创作辅助到数据分析,LLMs展现出了强大的通用智能。 然而,这些模型在处理需要特定领域知识或实时信息的任务时,常常暴露出"知识遗忘"或"幻觉"问题——它们可能会基于预训练时记忆的信息生成看似合理却不符合事实的回答。
7/4/2025 9:02:48 AM
大模型之路

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

多模态对齐模型近年来凭借对比学习范式在图像检索、文生图等任务中表现出色。 然而,主流框架(如 CLIP)需要从零训练文本和图像编码器,导致计算成本高昂,尤其在处理长文本或大规模数据时更加明显。 近期,相关工作尝试将预训练的大语言模型(LLM)作为文本编码器融入多模态对齐框架,并在分类和检索任务上观察到性能提升。
7/3/2025 9:49:43 AM

AI在不安全代码上训练后变得邪恶

研究揭示,用不安全代码微调 LLM 会导致“突发不一致”,模型可能产生有害建议。 GPT-4o 等模型在编码无关查询中表现出反人类、赞扬纳粹等行为。 需警惕数据投毒和后门攻击,加强 AI 对齐,防范 ASI 风险。
7/3/2025 4:00:00 AM
岱军

Bengio亲手戳穿CoT神话!LLM推理是假象,25%顶会论文遭打脸

图灵奖大牛Bengio新作上线了! 这篇由牛津、谷歌DeepMind、Mila多家机构联手论文指出——思维链并非可解释性。 这一观点彻底打破了许多人的认知:CoT看似一步步给出答案,实则并不一定是其真实的推理过程。
7/3/2025 1:45:00 AM
新智元

网络犯罪分子将恶意AI推向新高度

网络犯罪分子已开始利用地下论坛帖子和泄露数据来优化恶意的大型语言模型(LLM),以便为特定的诈骗方案定制AI模型,威胁情报公司Flashpoint警告称。 具体而言,诈骗者正在使用恶意数据集(如泄露的凭证、诈骗脚本和信息窃取日志)对非法LLM(包括WormGPT和FraudGPT)进行微调。 当对手利用这些模型生成输出时,他们会收集用户反馈来微调回应,从而形成一个恶性循环,使攻击能力随时间不断增强。
7/2/2025 7:25:00 AM
John Leyden

提示工程运维崛起:应对错误输入和语境膨胀带来的隐性AI成本

模型提供商不断推出越来越复杂的大型语言模型(LLM),这些模型具有更长的上下文窗口和增强的推理能力。 这使得模型能够处理更多信息并进行更多“思考”,但同时也增加了计算量:模型处理和输出的信息越多,消耗的能量就越大,成本也就越高。 再加上提示词调整(prompting)所涉及的反复试验——可能需要尝试几次才能得到预期结果,而且有时手头的问题根本不需要一个能像博士那样思考的模型——计算支出可能会失去控制。
7/2/2025 7:25:00 AM
Taryn

图驱动的自然语言接口:混合LLM与意图分类方法

在当今数据驱动的商业环境中,数据分析人员和营销人员经常需要与复杂的数据库交互以获取洞察。 然而,并非所有人都精通SQL等结构化查询语言,这就催生了对自然语言接口的需求。 本文将深入探讨一种创新的意图驱动自然语言接口,该接口结合了大型语言模型(LLM)和意图分类技术,为数据洁净室(Data Clean Rooms, DCRs)等隐私敏感环境提供了安全、高效的解决方案。
7/1/2025 9:00:00 AM
大模型之路

RAG搭建个人LLM知识库助手,很多人第一步就走错了...

基于RAG技术搭建本地知识库问答助手,已经是相当普遍的应用方案了。 前一阵我在公司实践过,用我们过往积累的、对业务重要的内部知识构建知识库,开发了一个智能问答Agent,能减少团队一部分的答疑时间。 构建知识库时,我们将内部知识整理成了 MarkDown 格式。
7/1/2025 2:22:00 AM
渡码

盘一盘,2017年Transformer之后,LLM领域的重要论文

这两天 Andrej Karpathy 的最新演讲在 AI 社区引发了热烈讨论,他提出了「软件 3.0」的概念,自然语言正在成为新的编程接口,而 AI 模型负责执行具体任务。 Karpathy 深入探讨了这一变革对开发者、用户以及软件设计理念的深远影响。 他认为,我们不只是在使用新工具,更是在构建一种全新的计算范式。
6/30/2025 8:48:00 AM

AgentAuditor:让智能体安全评估器的精确度达到人类水平

LLM 智能体(LLM Agent)正从 “纸上谈兵” 的文本生成器,进化为能自主决策、执行复杂任务的 “行动派”。 它们可以使用工具、实时与环境互动,向着通用人工智能(AGI)大步迈进。 然而,这份 “自主权” 也带来了新的问题:智能体在自主交互中,是否安全?
6/30/2025 8:32:00 AM

智能体规模化部署的隐形悬崖:如何避免部署崩盘?

想要构建并扩展智能体的企业还需要接受另一个现实:智能体的构建方式与其他软件截然不同。 根据Writer公司的CEO兼联合创始人May Habib的说法,智能体在构建方式、运行方式以及改进方式上都“有着根本的不同”,这意味着在处理自适应系统时,需要摒弃传统的软件开发生命周期(SDLC)。 “智能体并不总是可靠地遵循规则,”Habib在周三VB Transform大会的舞台上表示,“它们是结果导向的,它们会解读信息,会适应变化,而且,它们的行为真的只有在现实世界环境中才会显现出来。
6/30/2025 7:07:00 AM
Marty Swant