AI在线 AI在线

如何极大增加 AI 输出的准确性

大家好,我卡颂。 经常与 AI 进行专业讨论(比如需求分析、方案讨论…)的朋友会发现,即使再先进的 AI,都有两个问题:输出内容有幻觉经常说恭维话常见的解决办法通常是「工程化方案」,比如「对生成内容进行事实核查」。 最近在推上看到@Tz_2022巧妙将Mom Test方法论迁移到“与AI对话”上,获得不错效果。

如何极大增加 AI 输出的准确性

大家好,我卡颂。

经常与 AI 进行专业讨论(比如需求分析、方案讨论…)的朋友会发现,即使再先进的 AI,都有两个问题:

  • 输出内容有幻觉
  • 经常说恭维话

常见的解决办法通常是「工程化方案」,比如「对生成内容进行事实核查」

最近在推上看到@Tz_2022巧妙将Mom Test方法论迁移到“与AI对话”上,获得不错效果。

整个理念非常有意思,今天就将这一方法论分享给大家。

The Mom Test

Mom Test(妈妈测试)是一套由「Rob Fitzpatrick」提出的,用于「评估创业想法和获取真实客户反馈」的框架。

Rob Fitzpatrick

其核心思想是:「你无法通过询问他人(即使是你妈)是否喜欢你的创业点子来获得真实反馈,因为人们出于礼貌或避免冲突,往往会说“好话”而不是“真话”。」

这个测试的目的是教你如何提出正确的问题,从而绕过这种“社交礼貌”,挖掘出用户真实的行为、痛点和需求,避免在错误的想法上浪费时间和金钱。

方法论的核心可以总结为3个基本原则:

原则1:谈论他们的生活,而不是你的想法

不要一上来就激动地描述你的产品创意,因为这会立刻将对方置于一个“评审员”的角色,他们只会对你的想法做出反应(通常是鼓励性的),而不是透露自己的真实情况。

  • 错误示范:“我有一个做XX的App创意,你觉得怎么样?”
  • 正确示范:“你平时是怎么处理「某个问题」的?”、“能跟我聊聊你上次遇到「某个问题」时的具体情况吗?”

通过聚焦于「他们过去的经历、行为和痛点」,你能获得客观、真实的数据。

原则2:询问具体的事实和行为,而不是泛泛的意见和假设

人们的意见和未来的承诺(“我可能会用”)是廉价且不可靠的。过去的具体行为和事实才是可靠的证据。

  • 错误示范:“你会使用一个能解决这个问题的产品吗?”

这是一个关于未来的假设,答案很可能是“会的”

  • 正确示范:“你目前是怎么解决这个问题的?”、“你为此尝试过哪些工具或方法?”

这些是关于过去事实的问题

原则3:倾听“坏消息”和痛点

创业的宝贵洞察往往隐藏在用户的挫折、抱怨和不满意中。你的目标是发现并理解这些痛点,因为它们才是你产品存在的理由。

方法论迁移

聪明的朋友已经发现了,如果将Mom Test的提问技巧用在 AI 上,天然就有如下效果:

  • 反幻觉:基于用户的经历、行为等真实发生的事提问
  • 反恭维:倾听坏消息、不满

以下是@Tz_2022总结的「适用于 AI 的Mom Test提问技巧」

1. 避免问意见,改问证据

错误示范:

  • 你觉得这个方案好不好?
  • 这样设计是不是很合理?

分析:模型会倾向于说更多泛泛的恭维话。

正确示范:

  • 请给我 3 个具体反例,说明这个方案可能失败的场景
  • 请基于已知的事实/数据,列出这个设计可能遇到的限制

2. 避免未来假设,追问过去表现

错误示范:

  • 如果遇到X问题,你会怎么处理?

分析:模型输出没有依据,可能会产生幻觉。

正确示例:

  • 请列举你在训练语料中学到的、已经出现过的X问题解决案例
  • 在过去的研究或历史记录中,X是如何被解决的?

分析:基于「已发生的事实」输出。

3. 避免模糊,要求具体

错误示范:

  • 帮我优化这个文案
  • 给我一些改进建议

正确示范:

  • 请将这个文案重写成3个版本:① 面向投资人,② 面向工程师,③ 面向普通用户,每个版本100字
  • 请逐句指出文案中哪些地方含糊,并给出更清晰的替代表达

4. 用行为驱动而不是态度驱动

错误示范:

  • 如果你是用户,你会不会喜欢这个产品?

正确示范:

  • 假设你是目标用户,请模拟一次实际使用过程,并逐步写出你会点击、输入、犹豫的步骤

5. 验证而非求赞美

错误示范:

  • 你能确认我这个逻辑是对的吗?

正确示例:

  • 请检查我这个逻辑,找出其中至少一个可能的错误,并解释理由。
  • 如果必须反驳我,请站在反方角度给出3点论证。

总结

掌握5个基于Mom Test的提示词技巧,有效减少模型输出的幻觉与恭维。

以下是推友@JerryBobAI制作的总结:

如果你觉得5个技巧记忆起来有点难,也可以记住一个关键词「brutal」

使用方式很简单,在与 AI 进行专业讨论时,带上这个关键词,能让输出更犀利,有效减少恭维。

比如:

复制

相关资讯

OpenAI开源客户服务代理框架 加速企业级AI应用落地

人工智能研究机构OpenAI于6月18日正式开源其客户服务代理框架,标志着该公司在企业级AI解决方案布局上迈出重要一步。 该框架通过提供透明工具链和清晰实施案例,旨在推动智能代理系统从实验室走向实际商业应用。 技术细节与核心优势.
6/19/2025 2:01:33 PM
AI在线

知乎直答:AI 搜索产品从 0 到 1 实践探索

一、知乎直答产品介绍知乎直答是具有强社区属性的通用 AI 搜索产品,但并非社区版 AI 搜索。 知乎直答具有以下几大优势:认真专业:与知乎专注专业内容生产的调性相符,严格把控参考来源与质量,确保回答认真且专业。 连接创作者:可在使用中关注、与创作者交流互动获取专业见解。
1/20/2025 10:40:08 AM
王界武

活性提高42倍,ML引导的无细胞表达加速酶工程,登Nature子刊

编辑 | 萝卜皮酶是人类生活中不可或缺的天然催化剂,不仅助我们消化食物,还能增强香水香味、提高洗衣效率,甚至用于疾病治疗。 科学家们正使用酶工程创造新酶,用于吸收温室气体、降解环境毒素、研发高效药物。 但是,酶工程受限于快速生成和使用大量序列功能关系数据集进行预测设计的挑战。
1/24/2025 2:55:00 PM
ScienceAI
  • 1