1. 引言与目标
本文旨在为普通观众提供大型语言模型(如ChatGPT)的全面介绍。
目标是建立理解LLM的"心智模型",解释其工作原理、优势与局限。
LLM既有神奇之处,也有明显缺陷和"尖锐边缘"(潜在风险)需警惕。
核心问题:输入框背后的机制是什么?用户应如何有效提问?模型如何生成回复?
将逐步拆解LLM构建流程,同时探讨其认知心理学意义。
2. 预训练阶段(Pre-training)
预训练是构建LLM的第一步,核心是"下载并处理互联网"。
数据集代表(如Hugging Face的FineWeb)约44TB,经多阶段过滤(URL过滤、文本提取、语言分类、去重、PII移除)。
高质量文档需满足:海量、高质、多样性。
原始文本需转化为 一维符号序列 ,通过 分词(Tokenization) 压缩序列长度(例如GPT-4使用100,277个符号)。
BPE算法(Byte Pair Encoding) 通过合并高频字节对优化序列效率。
神经网络训练目标: 预测序列中下一个符号的概率 (输入为token窗口,输出为概率分布)。
训练本质:调整网络参数,使预测匹配训练数据的统计规律。
计算成本极高(例如GPT-2训练曾耗资,现可降至100)。
3. 基础模型(Base Model)与推理(Inference)
预训练产出 "基础模型"——本质是"互联网文档的符号模拟器" 。
推理过程: 基于前缀符号序列,按概率分布采样生成后续符号 (类似"加权掷骰子")。
基础模型非对话助手,仅能生成类互联网文本的"混音"(remix) 。
模型知识存储于参数中,是"模糊记忆"而非精确数据库 ,易产生 幻觉(Hallucination) 。
示例:基础模型(如Llama 3.1 405B)可硬编码提示模拟助手,但本质仍是符号补全。
4. 监督微调阶段(Supervised Fine-Tuning, SFT)
目标:将基础模型转化为"助手"(如ChatGPT)。
方法:替换预训练数据集为人工标注的"对话数据集" (例如InstructGPT、UltraChat)。
对话需编码为 一维符号序列 (例如OpenAI使用<|im_start|>等特殊符号区分角色)。
标注员(Labeler)依据公司编写的"标注指南"生成理想回复 (例如"有益、真实、无害"原则)。
SFT模型本质是"标注员的统计模拟" ,其知识、风格、能力边界均由训练数据定义。
计算成本远低于预训练 (例如SFT仅需数小时)。
5. LLM心理学与认知缺陷
幻觉根源:SFT训练数据中"提问-答案"模式鼓励模型自信回复,即使其内部不确定。
缓解方法:
• 知识边界探测: 添加"我不知道"示例至训练集(如Meta Llama 3方案)。
• 工具使用(Tool Use): 引入搜索、代码解释器等工具, 将外部信息注入上下文窗口(工作记忆) 。
上下文窗口(Context Window)是模型的"工作记忆" ,参数知识则是"长期模糊记忆"。
模型不具"自我": 自我描述(如"我是ChatGPT")由SFT数据或系统消息硬编码实现。
计算瓶颈: 每符号生成仅固定计算量, 复杂任务需跨多符号分配计算 (如数学分步推理)。
分词限制: 模型处理字符级任务(如拼写、计数)能力弱,因世界基于符号而非字符。
能力不均衡: 模型呈"瑞士奶酪"能力分布——精通专业领域,但可能在简单问题(如9.11 > 9.9?)出错。
6. 强化学习阶段(Reinforcement Learning, RL)
目标:超越模仿人类(SFT),让模型自主发现高效解决方案。
可验证领域(如数学、代码):
• 方法:生成多个解决方案,奖励正确结果对应的符号序列 (如DeepSeek-R1)。
• 涌现特性:模型自发产生"思维链"(Chain-of-Thought) ,通过回溯、多视角验证提升准确率。
• RL模型能超越人类策略 (类比AlphaGo的"第37步")。
不可验证领域(如创意写作):
• 人类反馈强化学习(RLHF): 训练奖励模型(Reward Model)模拟人类偏好排序,替代人工评分。
• 局限:奖励模型可被"对抗样本"欺骗,RLHF非真正RL,仅是有限微调。
RL与SFT关系: SFT提供初始策略,RL通过实践优化。
RL模型代表(如GPT-4o "Advanced Reasoning"): 需订阅或使用开源模型(DeepSeek-R1)。
7. 未来方向与资源
多模态(Multimodality): 文本、音频、图像统一符号化处理是趋势。
智能体(Agents): 模型将能执行长期任务(需人类监督)。
测试时训练(Test-Time Training): 突破固定参数限制是关键挑战。
资源推荐:
• 排行榜:lmsys.org(动态评估模型性能)。
• 新闻:ainewsletter.com(全面AI动态摘要)。
• 模型获取:
• 商业助手:OpenAI Chat, Google Gemini, Anthropic Claude。
• 开源模型:Together AI(推理平台), Hyperbolic(基础模型), LM Studio(本地运行)。
8. 总结与本质
LLM三大训练阶段类比人类学习:
• 预训练 = 阅读教材(知识积累)
• SFT = 学习例题(模仿专家)
• RL = 练习习题(自主解题)
ChatGPT本质: 用户输入被编码为符号序列,模型续写符号生成回复。
回复来源: SFT模型是"OpenAI标注员的统计模拟",RL模型则包含"自主发现的推理策略"。
核心提示:
• 始终将LLM视为工具(非可信赖代理),验证其输出。
• 参数知识是"模糊记忆",工具提供"精确工作记忆"。
• 能力呈"瑞士奶酪"分布——强大但不均衡。
关键观点总结:
1. LLM既有神奇之处,也有明显缺陷和"尖锐边缘"(潜在风险)需警惕。
2. 预训练是构建LLM的第一步,核心是"下载并处理互联网"。
3. 高质量文档需满足:海量、高质、多样性。
4. BPE算法(Byte Pair Encoding)通过合并高频字节对优化序列效率。
5. 训练本质:调整网络参数,使预测匹配训练数据的统计规律。
6. 基础模型非对话助手,仅能生成类互联网文本的"混音"(remix)。
7. SFT模型本质是"标注员的统计模拟"。
8. 幻觉根源:SFT训练数据中"提问-答案"模式鼓励模型自信回复,即使其内部不确定。
9. 上下文窗口(Context Window)是模型的"工作记忆"。
10. RL模型能超越人类策略(类比AlphaGo的"第37步")。
11. 奖励模型可被"对抗样本"欺骗,RLHF非真正RL,仅是有限微调。