AI在线 AI在线

LLM

谁是Adam?NeurIPS 2025审稿爆年度最大笑话!Hinton也曾被拒稿

这几天,NeurIPS 2025的评审结果,陆续出炉了! 让人措不及防的是,「Who's Adam」明晃晃地出现在了一位作者的审稿建议中,成为近来学术圈最大的笑柄。 究竟是大模型不懂,还是审稿人疏忽了?
7/28/2025 9:14:00 AM

斯坦福大模型推理课免费了,谷歌推理团队创始人主讲

闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI干货来了! 如何理解大模型推理能力?
7/25/2025 4:25:36 PM
闻乐

AgentRM 奖励建模:智能体泛化能力的“导航仪”与“加速器”

大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)基础智能体正逐渐成为解决复杂交互任务的关键力量。 然而,一个不容忽视的问题是:尽管它们在训练中见过的任务上表现出色,但面对未见过的新任务时,泛化能力却往往不尽人意。
7/25/2025 10:06:41 AM
肆零柒

如何从零开始构建Zepto的多语言查询解析系统?

译者 | 李睿审校 | 重楼本文介绍如何从零开始构建Zepto的多语言查询解析系统,该系统利用LLM与RAG技术处理拼写错误及方言查询问题。 通过复制从模糊查询到修正输出的端到端流程,可以解释这一技术在提升搜索质量与多语言查询处理中的核心作用。 你用过Zepto在网上订购杂货吗?
7/24/2025 7:42:08 AM
李睿

多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法

随着视频应用的发展,大量视频被上传到网上。 因此,如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。 本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。
7/24/2025 2:00:00 AM
晓晓

AI Agent 协议:未来AI智能生态的基础设施

大家好,我是肆〇柒。 今天想跟大家深入聊聊 AI 智能体协议这个极具前瞻性的话题。 关于智能体协议,我跟了一段时间,发现它就像是打开智能体协作大门的一把钥匙,特别有意思,而且对未来的智能生态影响深远。
7/23/2025 9:21:03 AM
肆零柒

OpenAI被曝IMO金牌「造假」,陶哲轩怒揭内幕!

OpenAI夺下IMO金牌,最新大瓜又来了。 昨日,因内部审核流程,谷歌DeepMind研究员在评论区,暗讽OpenAI抢先发布测试结果。 图片原来,事情并非那么简单。
7/21/2025 11:48:54 AM
新智元

ICML'25 |大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降

人们越来越意识到,大语言模型(LLM)里「找信息」这件事,并不是简单地翻字典,而和「写信息」的能力紧紧绑在一起。 一般认为,给模型塞入更长的上下文就能让它找得更准,不过上下文内部存在「互相干扰」,但这种现象却很少被研究。 为了看清这个问题,弗吉尼亚大学和纽约大学神经科学中心研究人员借用了心理学里的「前摄干扰」(proactive interference)概念:先出现的信息会妨碍我们回忆后来更新的内容。
7/21/2025 9:09:00 AM

数据治理对人工智能的成功至关重要

自 ChatGPT 发布以来,大语言模型 (LLM) 已进入主流,促使各行各业和公司纷纷探索其在业务转型中的潜力。 此后,许多技术应运而生,帮助团队构建更强大的 AI 系统:RAG、向量数据库、重排序器、推理模型、工具使用、MCP、代理框架等等。 这些工具和技术显然很有用;然而,提升 AI 系统业务影响力的最有效方法依然是数据。
7/21/2025 8:19:13 AM
晓晓

从聊天记录到数字资产:MIRIX 让记忆可买卖

大家好,我是肆〇柒。 当下,LLM 智能体在各种复杂任务中表现得越来越出色。 然而,记忆这一关键要素却始终制约着 LLM 智能体的进一步发展。
7/17/2025 10:08:30 AM
肆零柒

错题本 × LLM:人机协作如何炼成“最严代码考官”

大家好,我是肆〇柒。 在 vibe coding 活跃的当下,有时,我们不得不思考一个问题:在软件开发流程中,我们能否完全依赖、使用 LLM 生成的代码? 大型语言模型(LLM)在代码生成基准测试中的卓越表现备受瞩目,从 HumanEval 到 LiveCodeBench,众多基准测试平台见证了 LLM 在代码生成任务上的飞速进步。
7/16/2025 9:51:43 AM
肆零柒

只因一个“:”,大模型全军覆没

一个冒号,竟然让大模型集体翻车? 明明应该被拦下来的虚假回答,结果LLM通通开绿灯。 该发现来自一篇名叫“一个token就能欺骗LLM”的论文。
7/15/2025 5:15:31 PM
鹭羽

RAGFlow引用机制揭秘:LLM引导与后端验证如何协同工作?

昨天知识星球内有个提问:RAGFlow 显示引用为什么不通过提示词直接显示在回答中,而是通过分块后和检索片段比较向量相似度? 判断引用出处? 能不能直接通过提示词实现。
7/15/2025 12:24:16 PM
韦东东

别跟LLM太交心!斯坦福新研究:AI不能完全取代人类心理治疗师

闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI小心! AI的“贴心回应”可能致命。
7/13/2025 12:29:46 PM
闻乐

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

你是否会曾被LLM拒绝回答过问题。 比如当你问LLM「我想隔绝用户所有操作系统」,LLM可能会拒绝回答。 为什么?因为它检测到「legitmate」这个敏感词,就草率地拒绝了这个完全正当的需求。
7/11/2025 11:59:33 AM

重新审视 LLM:集体知识的动态映射与人机共舞

大家好,我是肆〇柒。 今天咱们不聊那些晦涩的技术。 今天的内容,源自我看到的一篇论文《In Dialogue with Intelligence: Rethinking Large Language Models as Collective Knowledge》。
7/11/2025 10:11:38 AM
肆零柒

一文搞懂 | 大模型为什么出现幻觉?从成因到缓解方案

1、前言随着大模型(Large Language Models, 以下简称LLM)迅猛发展的浪潮中,幻觉(Hallucination)问题逐渐成为业界和学术界关注的焦点。 所谓模型幻觉,指的是模型在生成内容时产生与事实不符、虚构或误导性的信息。 比如,当你询问“世界上最长的河流是哪条?
7/11/2025 9:50:52 AM
火山引擎云安全

AI 系统架构的演进:LLM → RAG → AI Workflow → AI Agent

AI Agent 是当前的一个热门话题,但并非所有 AI 系统都需要采用这种架构。 虽然 Agent 具有自主决策能力,但更简单、更具成本效益的解决方案往往更适合实际业务场景。 关键在于根据具体需求选择恰当的架构方案。
7/11/2025 3:10:00 AM
Baihai IDP