AI在线 AI在线

研究:AI 测谎能力比人类更强,但会对社会交往造成影响

德国维尔茨堡大学当地时间 12 日公布的最新研究显示,在假新闻、政治家的可疑言论和被操纵的视频日益泛滥的时代,人工智能在测谎方面的表现比人类更佳。图源 Pixabay来自维尔茨堡、杜伊斯堡、柏林和图卢兹的研究人员探讨了 AI 在检测谎言方面的有效性及其对人类行为的影响。这项研究的主要发现可以总结如下:在基于文本的谎言检测中,AI 的准确性优于人类。没有 AI 的支持,人们不愿指责他人撒谎。在 AI 的支持下,人们更有可能表达对遇到谎言的怀疑。只有大约三分之一的研究参与者会利用向 AI 询问评估的机会。然而,大多数人

德国维尔茨堡大学当地时间 12 日公布的最新研究显示,在假新闻、政治家的可疑言论和被操纵的视频日益泛滥的时代,人工智能在测谎方面的表现比人类更佳。

研究:AI 测谎能力比人类更强,但会对社会交往造成影响

图源 Pixabay

来自维尔茨堡、杜伊斯堡、柏林和图卢兹的研究人员探讨了 AI 在检测谎言方面的有效性及其对人类行为的影响。这项研究的主要发现可以总结如下:

在基于文本的谎言检测中,AI 的准确性优于人类。

没有 AI 的支持,人们不愿指责他人撒谎。

在 AI 的支持下,人们更有可能表达对遇到谎言的怀疑

只有大约三分之一的研究参与者会利用向 AI 询问评估的机会。然而,大多数人会遵循算法的建议。

在为这项研究做准备时,研究团队要求近 1000 人写下他们即将到来的周末计划。除了真实的陈述,他们还被要求写一篇关于他们计划的虚构陈述。为了使他们的虚构陈述“尽可能有说服力”,研究团队还向他们提供了酬金。经过质量检查,团队最终得到了一份包含 768 位作者 1536 篇陈述的数据集。

基于这个数据集,研究团队利用谷歌的开源语言模型 BERT 开发并训练了一个谎言检测算法。经过训练,该算法实际上识别了数据集中将近 81% 的谎言。

在主要研究中,团队随机抽取了 510 份陈述,并招募了另外 2040 名参与者。这些受试者被分成四组,要求他们评估收到的语句是真是假

第一组:需要在没有 AI 支持的情况下评估陈述。

第二组:在做出判断之前,始终会看到算法的评估。

第三组 / 第四组:可主动请求 AI 的评估,但需要为此支付少量费用。

AI在线注:实际情况则是第三组没有主动请求 AI 提供建议,而第四组则向 AI 提出了评估要求,且有求必应。

实验结果如下:

第一组成员判断准确率为 46.5%(大致与随机猜测相当)。

第二组成员判断准确率为 60.1%。

人们通常不愿指责他人撒谎:第一组中,不到 20%的成员选择指出谎言;第二组成员自动收到 AI 的评估,指出谎言人数为 30%;第四组成员的“指责率”显著上升到约 58%。

只有大约三分之一的人要求谎言检测算法提供辅助。要求预测的人群非常倾向于遵循算法的建议,遵循率约为 88%。

在自动接受 AI 评估的人中,只有 57% 的人遵从其建议。

当 AI 判定一项陈述为“谎言”时,这种差异变得更加明显:85%请求 AI 评估的人同意 AI 作出的判断;而在自动收到 AI 评估的人中,只有 40%遵循 AI 的建议。

AI在线附论文地址:https://doi.org/10.1016/j.isci.2024.110201.

相关资讯

IDC 首次发布移动端 AI 大模型应用报告:百度文心一言发展较全面、抖音豆包用户活跃度表现出色

市场调查机构 IDC 昨日(9 月 2 日)首次发布了移动端大模型应用市场竞争力分析研究报告,评估了市场上 8 款热门 Chatbot 聊天机器人模型,并分析、洞察了相关 AI 模型的性能和特征。AI在线附上本次评估的 8 款 Chatbot App 如下(按照公司拼音首字母顺序排列):kimi 智能助手豆包海螺 AI天工通义文心一言讯飞星火智谱清言评估方案该评估模型初版主要聚焦于利用现有 App 相关的数据来剖析市场现状,揭示 Chatbot 在实际应用场景中的表现与局限。具体指标包括:市场影响力、用户活跃度、用
9/3/2024 10:18:31 AM
故渊

红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准

随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。 为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。 这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。
5/26/2025 2:00:50 PM
AI在线

多模态模型具备“物理推理能力”了吗?新基准揭示:表现最好的GPT-o4 mini也远不及人类!

表现最好的GPT-o4 mini,物理推理能力也远不及人类! 就在最近,来自香港大学、密歇根大学等机构的研究人员补齐了现有评估体系中的一处关键空白——评估多模态模型是否具备“物理推理能力”。 物理推理,即模型在面对真实或拟真的物理情境时,能否综合利用视觉信息、物理常识、数学建模进行判断和预测,被认为是通向具身智能的关键能力。
5/28/2025 11:55:28 AM
  • 1