一、什么是提示工程?
• 本质:用文本(或文本+其他模态)引导大型语言模型(LLM)输出正确 token 序列的系统方法。
• 关键洞察:LLM 是“概率预测机”,给定上文,逐 token 预测下文;提示工程就是设计并调试上文,使下文落在期望分布内。
• 误区澄清:
❌ 提示工程 ≠ 写几个问句
✅ 提示工程 = 迭代式“设计-评估-优化”闭环,涉及措辞、结构、上下文、模型配置等多变量。
二、为什么人人可上手,却仍需专业“工程”?
维度 | 看似简单 | 实则复杂 |
角色门槛 | 无需数据科学家背景 | 需要理解模型特性、训练数据偏差 |
措辞敏感度 | 随便问也能出答案 | 同义词替换就可能导致完全不同输出 |
配置参数 | 有默认设置 | 不同任务需精细调节温度、Top-K、Top-P |
评估标准 | 肉眼看上去差不多 | 需量化指标(BLEU/ROUGE、业务 KPI) |
结论:入门零门槛,精通需系统方法论。
三、LLM 输出配置三板斧
1. 输出长度(max_tokens)
• 作用:硬性截断,防止无限生成。
• 注意:缩短长度不会让模型“更简洁”,只是“戛然而止”;如需简洁,应在提示里显式指令,如“用一句话回答”。
2. 温度(Temperature)
• 物理隐喻:高温 → 分子运动剧烈 → 输出随机;低温 → 稳定。
• 取值建议:
0:贪婪解码,完全确定,适合数学题、事实问答。
0.2–0.5:平衡连贯与创意,适合大多数生产场景。
0.8+:高创意,适合头脑风暴、故事续写。
3. Top-K & Top-P(核采样)
参数 | 含义 | 直觉理解 | 推荐值 |
Top-K | 只看概率最高的 K 个 token | “候选池大小” | 20–50 |
Top-P | 累计概率阈值 P 内的 token | “动态候选池” | 0.9–0.95 |
• 组合逻辑:先取满足 Top-K 与 Top-P 的交集,再用温度采样;极端值会覆盖其他设置(如 T=0 时,Top-K/Top-P 失效)。
• 调参捷径:
事实任务:T=0, Top-P=1(等价关闭)
创意写作:T=0.9, Top-K=40, Top-P=0.95
首次实验:T=0.2, Top-K=30, Top-P=0.95 作为基准
四、最小可运行示例
任务:将影评情感分类为 POSITIVE / NEGATIVE / NEUTRAL,并只输出大写标签。
字段 | 值 |
模型 | gemini-pro |
温度 | 0.1 |
max_tokens | 5 |
Top-K | 禁用(N/A) |
Top-P | 1 |
提示 | 将影评情感分类为三选一:POSITIVE / NEGATIVE / NEUTRAL。仅返回大写标签。影评:“她”令人不安,却是杰作。 |
输出 | NEGATIVE |
提示要点:任务描述 + 输出格式约束,低温保证稳定性。
五、新手常见坑
1. 把输出长度当“简洁开关”结果:句子被拦腰截断,语义不完整。
2. 高温 + 无格式约束结果:模型自由发挥,输出偏离任务。
3. Top-K 与 Top-P 同时极端结果:参数相互抵消,行为不可预测。
4. 忽视记录结果:一周后忘记曾经有效的参数组合。
六、本章行动清单
在 Vertex AI Studio 创建第一个 Prompt 实验表,字段包括:目标、模型、T、Top-K、Top-P、max_tokens、提示全文、输出。
用同一提示分别跑 T=0 与 T=0.8,对比输出差异,体会温度作用。
把 max_tokens 从 100 调到 10,观察截断现象,验证“长度≠简洁”。
记录所有实验结果,为后续章节建立基准。