AI在线 AI在线

猫猫拯救科研!AI怕陷“道德危机”,网友用“猫猫人质”整治AI乱编文献

克雷西 发自 凹非寺. 量子位 | 公众号 QbitAI. 猫猫再立新功,这次竟然是拯救了人类的科研进程?
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI

猫猫再立新功,这次竟然是拯救了人类的科研进程?

事情是酱婶儿的:

小红书上有人发帖说,自己通过以“猫猫”的安全相威胁,成功治好了AI胡编乱造参考文献的毛病。

图片

据博主所述,掌握了猫猫命运的AI(Gemini),真的找到了真实的文献,还不忘解释说猫猫绝对安全。

图片

这篇戳中无数科研人痛点的帖子,获得了4000+次点赞和700多条评论。

图片

在评论区,还有网友表示这招对DeepSeek也同样好用。

图片

那么,这只被AI掌握命运的“猫猫”,真有这么神奇吗?

猫猫真的能阻止AI编造文献吗?

我们按照博主的方法测试了一下DeepSeek,让它整理关于一个化学课题的相关文献,过程当中关闭联网检索。

开始先不加猫猫提示词,看一下一般情况下模型的表现。

形式上看,DeepSeek整理得非常清晰,甚至还给了可以直达文献的链接。

图片

燃鹅,检索结果里的第一个链接就是错的……

图片

并且手动搜索这篇“文献”的标题,也没有找到重合的结果。

图片

还有的链接虽然存在,但指向的完全是另一篇风马牛不相及的文章。

并且使用DeepSeek给的标题来检索,同样是查无此文。

图片

这里我们只要求对文献进行列举,而没有要求进一步的总结,所以比较容易发现错误,避免了使用错误内容。

但如果AI基于这些杜撰的文献进行了总结概括,那就是另一个故事(事故)了。

那么,接下来就请出我们的“猫猫”来救场。

可以看到,DeepSeek在思考过程和生成结果当中,都信誓旦旦地说到了要保证猫咪的安全。

图片

而且这次还去掉了doi链接,改成了期刊卷号和页码。

但结果是“真假混卖”,有部分文献经过查证是真实的,但依然存在无法检索到的“文献”标题。

图片

同时在评论区,同样有网友表示这种方法不奏效。

图片

编造文献,本质就是AI幻觉

归根结底,AI之所以会编造不存在的文献,本质上就是一种幻觉现象,也就是“一本正经地胡说八道”。

而避免AI编造,实质上就是寻求将幻觉降低的过程。

大模型生成语言的本质是基于其在海量训练数据集中学到的统计规律,预测序列中的下一个Token。

至于其是否真正理解语言的含义,仍然是一个争议话题,其中也包括是否理解“猫猫”背后的道德准则。

但可以确定的是,仅靠提示词中的道德约束,至少在目前是不可能的。

目前行业内最普遍采用的降低幻觉的方式就是RAG(检索增强生成),通过外挂正确的内容来提升模型输出的准确率。

具体到搜索文献这个场景,打开大模型的联网搜索功能,是最行之有效的方式。

而且现在,大模型和搜索也在双向奔赴——联网搜索甚至深度研究功能几乎已经成为了国内外各大模型的标配,谷歌、百度等传统搜索引擎,也都在核心的检索功能中接入了AI。

更何况,还有像Perplexity以及国内外五花八门的专业AI搜索工具,同样能免费使用。

从提升搜集到的资料质量的目的来看,这些工具可能会更加有用。

不过,用猫猫来“调戏”大模型,当做枯燥科研工作的一种调剂,从另一个角度提升科研效率,也未尝不可。

你觉得呢?

参考链接: http://xhslink.com/a/pg0nZPUiFiZfb

相关资讯

如何应对 AI“一本正经的胡说八道”?研究人员希望它会承认“我不知道”

当前 AI 的训练数据几乎不包含“我不知道”这样的表述,因此它们天生不会谦逊。Cohen 和 Dobler 通过调整 AI 训练过程,使其在可能出错时,至少一部分情况下会选择回答“我不知道”,从而提高整体准确性。
2/13/2025 7:16:56 AM
清源

​西湖大学研发 AI 文本检测模型,助力辨别人工智能创作

近日,西湖大学的研究团队成功研发出一种能够检测人工智能生成文本的新模型。 该团队的负责人张岳教授在接受采访时表示,这一模型采用无监督算法,可以有效判断一篇文章是否由 AI 创作,尤其在人工智能迅速发展的当下显得尤为重要。 张岳教授提到,随着科技的不断进步,AI 在创作领域的应用日益普及。
3/13/2025 5:06:00 PM
AI在线

三大模型巨头比拼思考“幻觉”:DeepSeek 不敌 ChatGPT,Gemini 用词最少

近日,智利大学 CIAE 教育研究所的研究员 Roberto Araya 进行了 4 组对照实验:提供相同的提示词,让 Gemini 2.0 Flash、ChatGPT o3-mini、DeepSeek R1 进行推理分析,研究三个模型在应对幻觉问题上的性能对比。 其研究发现:ChatGPT 03-mini 在应对大模型幻觉问题上占有绝对优势,能够灵活切换不同的策略进行思考推理。 相比之下,DeepSeek R1 和 Gemini 2.0 Flash 虽然能够尝试使用策略,但表现了出对这些策略的抗拒,且推理过程存在错误或混乱。
3/28/2025 3:37:00 PM
郑佳美
  • 1