LLM
谁是Adam?NeurIPS 2025审稿爆年度最大笑话!Hinton也曾被拒稿
这几天,NeurIPS 2025的评审结果,陆续出炉了! 让人措不及防的是,「Who's Adam」明晃晃地出现在了一位作者的审稿建议中,成为近来学术圈最大的笑柄。 究竟是大模型不懂,还是审稿人疏忽了?
7/28/2025 9:14:00 AM
AgentRM 奖励建模:智能体泛化能力的“导航仪”与“加速器”
大家好,我是肆〇柒。 在 AI 领域,大型语言模型(LLM)基础智能体正逐渐成为解决复杂交互任务的关键力量。 然而,一个不容忽视的问题是:尽管它们在训练中见过的任务上表现出色,但面对未见过的新任务时,泛化能力却往往不尽人意。
7/25/2025 10:06:41 AM
肆零柒
如何从零开始构建Zepto的多语言查询解析系统?
译者 | 李睿审校 | 重楼本文介绍如何从零开始构建Zepto的多语言查询解析系统,该系统利用LLM与RAG技术处理拼写错误及方言查询问题。 通过复制从模糊查询到修正输出的端到端流程,可以解释这一技术在提升搜索质量与多语言查询处理中的核心作用。 你用过Zepto在网上订购杂货吗?
7/24/2025 7:42:08 AM
李睿
多模态大语言模型(LLM) 和视频语言预训练的关键进展、应用、数据集和方法
随着视频应用的发展,大量视频被上传到网上。 因此,如何利用视频及其对应的弱字幕进行表征学习成为近期的热门话题。 本文将回顾大规模视频语言预训练任务的最新进展、后续应用、基础数据集和技术。
7/24/2025 2:00:00 AM
晓晓
AI Agent 协议:未来AI智能生态的基础设施
大家好,我是肆〇柒。 今天想跟大家深入聊聊 AI 智能体协议这个极具前瞻性的话题。 关于智能体协议,我跟了一段时间,发现它就像是打开智能体协作大门的一把钥匙,特别有意思,而且对未来的智能生态影响深远。
7/23/2025 9:21:03 AM
肆零柒
OpenAI被曝IMO金牌「造假」,陶哲轩怒揭内幕!
OpenAI夺下IMO金牌,最新大瓜又来了。 昨日,因内部审核流程,谷歌DeepMind研究员在评论区,暗讽OpenAI抢先发布测试结果。 图片原来,事情并非那么简单。
7/21/2025 11:48:54 AM
新智元
ICML'25 |大模型再爆弱点!旧记忆忘不掉,新记忆分不出,准确率暴降
人们越来越意识到,大语言模型(LLM)里「找信息」这件事,并不是简单地翻字典,而和「写信息」的能力紧紧绑在一起。 一般认为,给模型塞入更长的上下文就能让它找得更准,不过上下文内部存在「互相干扰」,但这种现象却很少被研究。 为了看清这个问题,弗吉尼亚大学和纽约大学神经科学中心研究人员借用了心理学里的「前摄干扰」(proactive interference)概念:先出现的信息会妨碍我们回忆后来更新的内容。
7/21/2025 9:09:00 AM
数据治理对人工智能的成功至关重要
自 ChatGPT 发布以来,大语言模型 (LLM) 已进入主流,促使各行各业和公司纷纷探索其在业务转型中的潜力。 此后,许多技术应运而生,帮助团队构建更强大的 AI 系统:RAG、向量数据库、重排序器、推理模型、工具使用、MCP、代理框架等等。 这些工具和技术显然很有用;然而,提升 AI 系统业务影响力的最有效方法依然是数据。
7/21/2025 8:19:13 AM
晓晓
从聊天记录到数字资产:MIRIX 让记忆可买卖
大家好,我是肆〇柒。 当下,LLM 智能体在各种复杂任务中表现得越来越出色。 然而,记忆这一关键要素却始终制约着 LLM 智能体的进一步发展。
7/17/2025 10:08:30 AM
肆零柒
错题本 × LLM:人机协作如何炼成“最严代码考官”
大家好,我是肆〇柒。 在 vibe coding 活跃的当下,有时,我们不得不思考一个问题:在软件开发流程中,我们能否完全依赖、使用 LLM 生成的代码? 大型语言模型(LLM)在代码生成基准测试中的卓越表现备受瞩目,从 HumanEval 到 LiveCodeBench,众多基准测试平台见证了 LLM 在代码生成任务上的飞速进步。
7/16/2025 9:51:43 AM
肆零柒
只因一个“:”,大模型全军覆没
一个冒号,竟然让大模型集体翻车? 明明应该被拦下来的虚假回答,结果LLM通通开绿灯。 该发现来自一篇名叫“一个token就能欺骗LLM”的论文。
7/15/2025 5:15:31 PM
鹭羽
RAGFlow引用机制揭秘:LLM引导与后端验证如何协同工作?
昨天知识星球内有个提问:RAGFlow 显示引用为什么不通过提示词直接显示在回答中,而是通过分块后和检索片段比较向量相似度? 判断引用出处? 能不能直接通过提示词实现。
7/15/2025 12:24:16 PM
韦东东
别跟LLM太交心!斯坦福新研究:AI不能完全取代人类心理治疗师
闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI小心! AI的“贴心回应”可能致命。
7/13/2025 12:29:46 PM
闻乐
LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25
你是否会曾被LLM拒绝回答过问题。 比如当你问LLM「我想隔绝用户所有操作系统」,LLM可能会拒绝回答。 为什么?因为它检测到「legitmate」这个敏感词,就草率地拒绝了这个完全正当的需求。
7/11/2025 11:59:33 AM
重新审视 LLM:集体知识的动态映射与人机共舞
大家好,我是肆〇柒。 今天咱们不聊那些晦涩的技术。 今天的内容,源自我看到的一篇论文《In Dialogue with Intelligence: Rethinking Large Language Models as Collective Knowledge》。
7/11/2025 10:11:38 AM
肆零柒
一文搞懂 | 大模型为什么出现幻觉?从成因到缓解方案
1、前言随着大模型(Large Language Models, 以下简称LLM)迅猛发展的浪潮中,幻觉(Hallucination)问题逐渐成为业界和学术界关注的焦点。 所谓模型幻觉,指的是模型在生成内容时产生与事实不符、虚构或误导性的信息。 比如,当你询问“世界上最长的河流是哪条?
7/11/2025 9:50:52 AM
火山引擎云安全
AI 系统架构的演进:LLM → RAG → AI Workflow → AI Agent
AI Agent 是当前的一个热门话题,但并非所有 AI 系统都需要采用这种架构。 虽然 Agent 具有自主决策能力,但更简单、更具成本效益的解决方案往往更适合实际业务场景。 关键在于根据具体需求选择恰当的架构方案。
7/11/2025 3:10:00 AM
Baihai IDP
资讯热榜
6秒视频10秒生成!全新AI视频神器 Grok Imagine 深度体验+元提示词分享
OpenAI 为 ChatGPT 推出智能记忆清理功能,Plus 用户率先体验
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
大的来了:谷歌Gemini 3.0 Pro单次生成网页版操作系统,Win、Mac、Linux一网打尽
「性价比王者」Claude Haiku 4.5来了,速度更快,成本仅为Sonnet 4的1/3
OpenAI官宣自研首颗芯片,AI界「M1时刻」九个月杀到!联手博通三年10GW
刚刚,OpenAI官宣自研造芯,联手博通开发10吉瓦规模的AI加速器
OpenAI与博通联手打造10GW定制AI加速器
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
机器人
数据
大模型
Midjourney
开源
Meta
智能
微软
用户
AI新词
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
论文
LLM
代码
算法
芯片
Stable Diffusion
苹果
腾讯
AI for Science
Agent
Claude
蛋白质
开发者
生成式
神经网络
xAI
机器学习
3D
研究
人形机器人
生成
AI视频
百度
大语言模型
Sora
工具
具身智能
GPU
RAG
华为
计算
字节跳动
AI设计
搜索
大型语言模型
AGI
场景
视频生成
深度学习
架构
DeepMind
视觉
预测
伟达
Transformer
编程
AI模型
生成式AI
神器推荐
亚马逊