提示工程入门—从定义到核心配置

作者：Hark 2025-08-12 08:45

一、什么是提示工程？ • 本质：用文本（或文本其他模态）引导大型语言模型（LLM）输出正确 token 序列的系统方法。 • 关键洞察：LLM 是“概率预测机”，给定上文，逐 token 预测下文；提示工程就是设计并调试上文，使下文落在期望分布内。

一、什么是提示工程？

• 本质：用文本（或文本+其他模态）引导大型语言模型（LLM）输出正确 token 序列的系统方法。

• 关键洞察：LLM 是“概率预测机”，给定上文，逐 token 预测下文；提示工程就是设计并调试上文，使下文落在期望分布内。

• 误区澄清：

❌ 提示工程 ≠ 写几个问句

✅ 提示工程 = 迭代式“设计-评估-优化”闭环，涉及措辞、结构、上下文、模型配置等多变量。

二、为什么人人可上手，却仍需专业“工程”？

维度	看似简单	实则复杂
角色门槛	无需数据科学家背景	需要理解模型特性、训练数据偏差
措辞敏感度	随便问也能出答案	同义词替换就可能导致完全不同输出
配置参数	有默认设置	不同任务需精细调节温度、Top-K、Top-P
评估标准	肉眼看上去差不多	需量化指标（BLEU/ROUGE、业务 KPI）

结论：入门零门槛，精通需系统方法论。

三、LLM 输出配置三板斧

1. 输出长度（max_tokens）

• 作用：硬性截断，防止无限生成。

• 注意：缩短长度不会让模型“更简洁”，只是“戛然而止”；如需简洁，应在提示里显式指令，如“用一句话回答”。

2. 温度（Temperature）

• 物理隐喻：高温 → 分子运动剧烈 → 输出随机；低温 → 稳定。

• 取值建议：

0：贪婪解码，完全确定，适合数学题、事实问答。

0.2–0.5：平衡连贯与创意，适合大多数生产场景。

0.8+：高创意，适合头脑风暴、故事续写。

3. Top-K & Top-P（核采样）

参数	含义	直觉理解	推荐值
Top-K	只看概率最高的 K 个 token	“候选池大小”	20–50
Top-P	累计概率阈值 P 内的 token	“动态候选池”	0.9–0.95

• 组合逻辑：先取满足 Top-K 与 Top-P 的交集，再用温度采样；极端值会覆盖其他设置（如 T=0 时，Top-K/Top-P 失效）。

• 调参捷径：

事实任务：T=0, Top-P=1（等价关闭）

创意写作：T=0.9, Top-K=40, Top-P=0.95

首次实验：T=0.2, Top-K=30, Top-P=0.95 作为基准

四、最小可运行示例

任务：将影评情感分类为 POSITIVE / NEGATIVE / NEUTRAL，并只输出大写标签。

字段	值
模型	gemini-pro
温度	0.1
max_tokens	5
Top-K	禁用（N/A）
Top-P	1
提示	将影评情感分类为三选一：POSITIVE / NEGATIVE / NEUTRAL。仅返回大写标签。影评：“她”令人不安，却是杰作。
输出	NEGATIVE

提示要点：任务描述 + 输出格式约束，低温保证稳定性。

五、新手常见坑

1. 把输出长度当“简洁开关”结果：句子被拦腰截断，语义不完整。

2. 高温 + 无格式约束结果：模型自由发挥，输出偏离任务。

3. Top-K 与 Top-P 同时极端结果：参数相互抵消，行为不可预测。

4. 忽视记录结果：一周后忘记曾经有效的参数组合。

六、本章行动清单

在 Vertex AI Studio 创建第一个 Prompt 实验表，字段包括：目标、模型、T、Top-K、Top-P、max_tokens、提示全文、输出。

用同一提示分别跑 T=0 与 T=0.8，对比输出差异，体会温度作用。

把 max_tokens 从 100 调到 10，观察截断现象，验证“长度≠简洁”。

记录所有实验结果，为后续章节建立基准。