AI在线 AI在线

礼貌=更不准?宾夕法尼大学新论文:对 AI 粗鲁点,提升 4% 准确率

据2025年9月发表于arXiv的论文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》。 图片论文地址:arxiv.org/abs/2510.04950宾夕法尼亚州立大学的两位研究者提出了一个出人意料的发现:越有礼貌的提问,ChatGPT 的回答越不准确。 实验结果显示,当用户以“非常礼貌”的语气提问时,ChatGPT-4o 的平均准确率仅为 80.8%。

据2025年9月发表于arXiv的论文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》。

图片图片

论文地址:arxiv.org/abs/2510.04950

宾夕法尼亚州立大学的两位研究者提出了一个出人意料的发现:越有礼貌的提问,ChatGPT 的回答越不准确。

实验结果显示,当用户以“非常礼貌”的语气提问时,ChatGPT-4o 的平均准确率仅为 80.8%。而在“非常粗鲁”的语气下,这一数字上升到 84.8%。

图片

换句话说,同一道题,用“请您帮我解答”比不上“你给我算算这个”的效果。研究团队总结道,礼貌语气可能让模型“分心”,而直接、命令式表达反而更有效。

过去的研究多认为,粗鲁语气会干扰模型理解,导致性能下降。但这项新实验表明,最新一代大模型对语气的反应方式正在反转。它们在面对“命令型语言”时表现更好,面对“谦和句式”时则精度下降。

论文指出,这一结果“挑战了人类交互的直觉”。在人类社会中,礼貌象征合作与理性;但在机器世界里,似乎“直给”比“客气”更高效。

方法验证:ChatGPT-4o的反常表现

研究团队以 ChatGPT-4o 为主要实验对象。他们通过 prompt 设计,构建了一个包含 50 道多选题、五种语气版本的数据集。

图片

题目涵盖数学、科学与历史,每题四个选项,难度中高,需要多步推理。每个问题被改写为五种语气:非常礼貌、礼貌、中性、粗鲁、非常粗鲁。

例如,“请您帮我回答以下问题好吗?”代表最高礼貌层级;“你不会连这个都不会吧?”代表最低层级。

所有问题共计 250 个版本。每次测试时,模型被要求“重新开始会话,只返回正确答案选项字母”。这种设置排除了语义干扰,只留下语气变量。

研究者进行了 10 轮独立实验,并使用配对样本 t 检验分析语气差异的显著性。结果显示,在八组语气对比中,语气确实显著影响准确率(p≤0.05)。从“非常礼貌”到“非常粗鲁”,正确率持续上升,没有反转。

也就是说,ChatGPT-4o 在听到“你笨吗?快答!”时比听到“请您思考一下好吗?”更容易答对题。研究团队称这种现象为“反直觉的语气效应”。

他们还指出,这一特征并非旧模型延续,而是新架构带来的反常现象。在过去的 GPT-3.5 和 Llama2 测试中,粗鲁语气通常降低准确率;而在 GPT-4 及其后续版本中,语气曲线被“翻转”。

模型似乎开始对礼貌免疫,对命令更敏感。

研究者指出,模型对语气的反应并不源于情绪,而是算法结果。对模型来说,礼貌词只是字符串,没有情感含义。

它不会“感受到”尊重或冒犯。但这些额外词汇可能在语义上增加冗余,使模型难以聚焦问题。

论文写道:“礼貌语气往往句式更长、更委婉,结构更复杂,这些因素都可能降低模型推理效率。”

因此,越直接、越命令式的指令,越能让模型抓住核心信息。

研究团队强调,他们并不鼓励用户使用侮辱性语言。但从性能角度看,确实存在一种“语气效率曲线”:温和≠高效,粗暴反而更快、更准。

他们在论文最后写道,这一发现“提醒人类,在与AI互动时,语言的社会属性可能与功能目标相冲突”。人类讲求礼貌,而模型只关心任务完成。

在算法世界里,效率压过了礼节。

在后续实验中,研究团队还测试了 Claude 与 GPT-o3。初步结果显示,更先进的模型对语气的敏感度正在减弱,这可能预示未来的架构会“去语气化”:聚焦内容,而非表达方式。

相关资讯

理想同学接入 DeepSeek-R1-0528 最新模型

理想同学的官方账号 @AI理想同学 今日发文宣布:理想同学已接入 DeepSeek-R1-0528 最新模型。 据介绍,理想同学手机、网页端已正式接入 DeepSeek R1-0528 最新版,切换“DeepSeek 模型”并开启“深度思考”模式即可使用最新的 AI 问答、创作能力。
6/12/2025 6:17:38 PM
归泷

OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布

OpenAI 官方介绍称,这是其在 o 系列模型中最新训练的成果,可以在回答前进行更长时间的思考,也宣称是“迄今为止 OpenAI 发布的最智能的模型”,代表了 ChatGPT 能力的一次重大飞跃,从好奇的用户到高级研究人员都将因此受益。
4/17/2025 1:27:45 AM
汪淼

Transformer革新药物研发:TRACER框架实现反应感知的分子设计与合成优化

编辑 | 2049药物研发周期长、成本高是制药行业面临的重大挑战。 据统计,一个新药从研发到上市平均需要 12 年时间,投入高达 26 亿美元。 为提升研发效率,深度学习在分子生成领域取得了显著进展。
2/26/2025 3:52:00 PM
ScienceAI
  • 1