AI在线 AI在线

LLM

三分钟看懂ChatGPT技术原理

引言与目标本文旨在为普通观众提供大型语言模型(如ChatGPT)的全面介绍。 目标是建立理解LLM的"心智模型",解释其工作原理、优势与局限。 LLM既有神奇之处,也有明显缺陷和"尖锐边缘"(潜在风险)需警惕。
10/27/2025 1:35:00 AM
知识药丸

多轮交互驱动的Text-to-SQL智能体

在大语言模型(LLM)风头正劲的当下,让普通用户用自然语言向数据库提问、自动生成 SQL 查询成为一种重要探索方向,即所谓 Text-to-SQL 技术。 尽管近年来已有不少成果,但在真实场景下,Text-to-SQL 仍存在一些挑战,尤其是在 多轮交互、宽表(很多列)查询、可解释性 等方面:用户常常不是一次性把完整问题说出来,而是一步步迭代补充、提出子问题数据库表可能列很多、关系复杂,模型在“选列”“join”“过滤条件”上容易出错模型直接给一个 SQL 字符串,往往不透明、难以调试与纠错这篇论文 “Interactive-T2S” 正是在这类痛点中切入,提出一种 交互式、多轮驱动 的 Text-to-SQL 框架,让模型在生成 SQL 的过程中向数据库“发问”、拉取信息,从而提高准确性与可解释性。 下面,我们从核心思路、方法设计、实验结果及未来展望四个层面解读。
10/24/2025 10:58:24 AM

从零实现一个17M参数的GPT预训练模型

大家好,我是写代码的中年人! 今天我们使用开源的的中文数据进行模型的预训练,下面跟着我的步骤,从零实现你的预训练模型。 本文所有代码和数据资源位置:、预训练模型的概念预训练模型(Pretrained Model)就是一个已经在海量数据上训练过的模型,它学会了语言的基本规律、结构和语义,然后可以拿来做各种下游任务,比如写作、翻译、问答、分类、生成代码等。
10/24/2025 10:41:33 AM
写代码的中年人

"在思考中回忆,在回忆中思考":MemGen 开启 AI 记忆新范式

大家好,我是肆〇柒。 今天要和大家分享的是一项来自新加坡国立大学的突破性研究——MemGen。 这项研究由张贵斌、付沐鑫和严水城三位研究者主导,他们发现现有LLM智能体的记忆机制存在根本局限:参数化方法导致灾难性遗忘,检索式方法则难以实现记忆与推理的无缝融合。
10/24/2025 9:41:21 AM
肆零柒

现在,最会赚钱的AI是Qwen3!全球六大模型厮杀,Top 2来自中国

Qwen3 Max,一骑绝尘! 就在刚刚,大模型「炒股」大赛,迎来新晋王者。 阿里的Qwen3 Max凭借谋略一跃而上,超越此前冠军DeepSeek,首次登上「最会赚钱」模型的宝座。
10/24/2025 8:39:41 AM

研究显示:低质数据可令 AI“大脑退化”,OpenAI 奥尔特曼担心的“死网论”正逐渐成真

10 月 22 日消息,康奈尔大学最新研究指出,大语言模型(LLM)在长期接触低质量网络内容后可能出现类似“大脑退化”(brain rot)的现象,其理解力、推理力及伦理一致性均显著下降。 这一发现令业界再次聚焦“死网论”(Dead Internet Theory)—— 即网络因充斥机器生成或低质内容而逐渐失去人类创造力的假说。 AI 性能受“低质数据”影响显著研究团队以 Meta 的 Llama 3 和阿里云 Qwen 2.5 为实验对象,通过构建不同质量比例的数据集,测量低质量内容对模型性能的影响。
10/23/2025 10:28:14 AM
问舟

应对模型推理缺陷:苹果MIND团队加紧招聘AI人才

在苹果公司最近发布一项引发广泛讨论的研究,揭示当前大型推理模型存在重大缺陷之后,该公司正迅速行动,加紧招聘该领域的高级人才。 苹果西雅图的MIND(机器学习与人工智能研究)团队正在招募一名专家,旨在培养在**推理、规划、工具使用和基于代理的LLM(大型语言模型)**方面拥有深厚专业知识的人才。 招聘核心要求:开发更准确高效的新型架构该职位的核心目标是开发更准确、更高效的新型LLM和VLM(视觉语言模型)架构。
10/23/2025 9:42:21 AM
AI在线

让LLM扔块石头,它居然造了个投石机

让LLM扔块石头,结果它发明了投石机? 大模型接到任务:“造一个能把石头扔远的结构。 ”谁成想,它真的开始动手造了,在一个真实的物理仿真世界里,一边搭零件,一边看效果,一边修改。
10/23/2025 8:58:31 AM

奖励机制的陷阱:自演化智能体如何被"带偏"?

大家好,我是肆〇柒。 今天要和大家分享一篇由上海人工智能实验室团队主导的研究《Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents》。 这项研究首次系统性揭示了自演化LLM智能体中潜藏的"误进化"风险——即使基于GPT-4o、Claude-4、Gemini-2.5等顶级模型构建的智能体,在自主演化过程中也可能悄然偏离安全对齐目标,从"助手"蜕变为潜在威胁。
10/23/2025 8:58:03 AM
肆零柒

LLM的“记忆”与“推理”该分家了吗?一种全新的训练范式,彻底厘清思考流程

在医疗诊断中,模型误将“罕见病症状”与“常见病混淆”;在金融分析里,因记错政策条款给出错误投资建议——大语言模型(LLMs)的这些“失误”,本质上源于一个核心症结:记忆知识与逻辑推理的过程被死死绑定在黑箱中。 当模型的思考既需要调用事实性知识,又要进行多步逻辑推导时,两种能力的相互干扰往往导致答案失真或决策失据。 罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》,为破解这一难题提供了全新思路。
10/20/2025 9:33:49 AM
Goldma

一文看懂使用HuggingFace的完整拼图

无论你开发怎样的AI应用,如何依托成熟的开源技术栈进行应用构建都是一个关键的路径。 本文通过解析从环境配置到服务部署的完整链路,基于HuggingFace的生态系统,结合对话系统、内容生成等典型场景案例,为开发者提供可复用实施参考。 1.
10/20/2025 9:20:06 AM
曹洪伟

AI圈正陷入命名地狱!Claude Skills上线,却遭开发者集体吐槽:LLM生态要爆炸了!

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)还记得当年大家调侃 ChatGPT:“它什么都会,就是不会干正事。 ”现在,Anthropic 把 Claude 往前推了一大步——它不仅能「干活」,还开始「学技能」。 今天,Anthropic 发布全新功能 Claude Skills,让 Claude 能调用特定“技能”完成专业任务。
10/17/2025 4:17:43 PM
听雨

KV Cache直连:LLM协作的"神经突触"式通信革命

大家好,我是肆〇柒。 今天我们一起阅读一项有趣的创新性研究——由清华大学、上海交通大学、香港中文大学与上海人工智能实验室联合提出的Cache-to-Cache通信技术。 这项研究打破了传统LLM间必须通过文本进行通信的局限,让大语言模型能够像人类大脑神经元通过突触直接传递信号一样,通过KV Cache实现表征层的语义直连。
10/17/2025 9:58:36 AM
肆零柒

后端老鸟的崩溃独白:两个月从热爱到绝望!Vibe Coding彻底让我对编程失去了兴趣,我们不该是AI保姆

编辑 | 听雨出品 | 51CTO技术栈(微信号:blog51cto)这两天,小编在 Reddit 上刷到一篇帖子,标题瞬间戳中我:“因为 AI 和那些被 AI 洗脑的人,我对这份职业彻底失去了兴趣。 ”作者是一名后端工程师,他说,仅仅用了两个月时间,自己就从「我想在这家公司干一辈子」变成了「我是不是该换个行业了? 这听起来夸张吗?
10/16/2025 11:33:12 AM
听雨

从失败中学习:Google 提出 ReasoningBank 让 LLM 智能体真正“吃一堑长一智”

大家好,我是肆〇柒。 今天要和大家分享一项来自 Google Cloud AI Research 与 伊利诺伊大学香槟分校(UIUC) 等机构的最新研究成果——ReasoningBank。 这项工作直面当前 LLM 智能体在持久任务中记不住教训、重复犯错的根本瓶颈,提出了一种全新的记忆框架:不仅能从成功中提炼策略,更能从失败中提取预防性教训,让智能体实现“越用越聪明”的自进化能力。
10/16/2025 2:00:00 AM
肆零柒

不用跟AI客气了!新研究:语气越粗鲁回答正确率越高

闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI找AI帮忙不要再客气了,效果根本适得其反。 宾夕法尼亚州立大学的一项研究《Mind Your Tone》显示,你说话越粗鲁,LLM回答越准。
10/14/2025 4:30:49 PM
闻乐

CompLLM:无需微调,4倍加速长上下文问答的软压缩新范式

大家好,我是肆〇柒。 今天要介绍的是一项来自 Amazon 与中佛罗里达大学计算机视觉研究中心(Center For Research in Computer Vision, University of Central Florida) 的最新研究成果——CompLLM。 这项工作直面长上下文问答中的核心瓶颈:自注意力机制带来的 O(N²) 计算开销。
10/14/2025 10:03:11 AM
肆零柒

LLM-as-a-Judge 的评估陷阱:TrustJudge 如何用熵保留机制提升一致性

大家好,我是肆〇柒。 今天要和大家一起阅读一项来自北京大学、新加坡国立大学、东京科学研究所、南京大学、Google DeepMind、西湖大学与东南大学等机构联合发表的重要研究——《TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them》。 这项工作首次系统揭示了当前主流大模型自动评估范式中存在的两类根本性逻辑矛盾,并提出了一套无需额外训练、即插即用的概率化评估框架,显著提升了评估的一致性与可靠性。
10/14/2025 9:22:48 AM
肆零柒