礼貌=更不准？宾夕法尼大学新论文：对 AI 粗鲁点，提升 4% 准确率

据2025年9月发表于arXiv的论文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》。图片论文地址：arxiv.org/abs/2510.04950宾夕法尼亚州立大学的两位研究者提出了一个出人意料的发现：越有礼貌的提问，ChatGPT 的回答越不准确。实验结果显示，当用户以“非常礼貌”的语气提问时，ChatGPT-4o 的平均准确率仅为 80.8%。

据2025年9月发表于arXiv的论文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》。

图片

论文地址：arxiv.org/abs/2510.04950

宾夕法尼亚州立大学的两位研究者提出了一个出人意料的发现：越有礼貌的提问，ChatGPT 的回答越不准确。

实验结果显示，当用户以“非常礼貌”的语气提问时，ChatGPT-4o 的平均准确率仅为 80.8%。而在“非常粗鲁”的语气下，这一数字上升到 84.8%。

换句话说，同一道题，用“请您帮我解答”比不上“你给我算算这个”的效果。研究团队总结道，礼貌语气可能让模型“分心”，而直接、命令式表达反而更有效。

过去的研究多认为，粗鲁语气会干扰模型理解，导致性能下降。但这项新实验表明，最新一代大模型对语气的反应方式正在反转。它们在面对“命令型语言”时表现更好，面对“谦和句式”时则精度下降。

论文指出，这一结果“挑战了人类交互的直觉”。在人类社会中，礼貌象征合作与理性；但在机器世界里，似乎“直给”比“客气”更高效。

方法验证：ChatGPT-4o的反常表现

研究团队以 ChatGPT-4o 为主要实验对象。他们通过 prompt 设计，构建了一个包含 50 道多选题、五种语气版本的数据集。

题目涵盖数学、科学与历史，每题四个选项，难度中高，需要多步推理。每个问题被改写为五种语气：非常礼貌、礼貌、中性、粗鲁、非常粗鲁。

例如，“请您帮我回答以下问题好吗？”代表最高礼貌层级；“你不会连这个都不会吧？”代表最低层级。

所有问题共计 250 个版本。每次测试时，模型被要求“重新开始会话，只返回正确答案选项字母”。这种设置排除了语义干扰，只留下语气变量。

研究者进行了 10 轮独立实验，并使用配对样本 t 检验分析语气差异的显著性。结果显示，在八组语气对比中，语气确实显著影响准确率（p≤0.05）。从“非常礼貌”到“非常粗鲁”，正确率持续上升，没有反转。

也就是说，ChatGPT-4o 在听到“你笨吗？快答！”时比听到“请您思考一下好吗？”更容易答对题。研究团队称这种现象为“反直觉的语气效应”。

他们还指出，这一特征并非旧模型延续，而是新架构带来的反常现象。在过去的 GPT-3.5 和 Llama2 测试中，粗鲁语气通常降低准确率；而在 GPT-4 及其后续版本中，语气曲线被“翻转”。

模型似乎开始对礼貌免疫，对命令更敏感。

研究者指出，模型对语气的反应并不源于情绪，而是算法结果。对模型来说，礼貌词只是字符串，没有情感含义。

它不会“感受到”尊重或冒犯。但这些额外词汇可能在语义上增加冗余，使模型难以聚焦问题。

论文写道：“礼貌语气往往句式更长、更委婉，结构更复杂，这些因素都可能降低模型推理效率。”

因此，越直接、越命令式的指令，越能让模型抓住核心信息。

研究团队强调，他们并不鼓励用户使用侮辱性语言。但从性能角度看，确实存在一种“语气效率曲线”：温和≠高效，粗暴反而更快、更准。

他们在论文最后写道，这一发现“提醒人类，在与AI互动时，语言的社会属性可能与功能目标相冲突”。人类讲求礼貌，而模型只关心任务完成。

在算法世界里，效率压过了礼节。

在后续实验中，研究团队还测试了 Claude 与 GPT-o3。初步结果显示，更先进的模型对语气的敏感度正在减弱，这可能预示未来的架构会“去语气化”：聚焦内容，而非表达方式。

礼貌=更不准？宾夕法尼大学新论文：对 AI 粗鲁点，提升 4% 准确率

相关资讯

理想同学接入 DeepSeek-R1-0528 最新模型

Transformer革新药物研发：TRACER框架实现反应感知的分子设计与合成优化

聊聊SpringAI流式输出的底层实现？