AI在线 AI在线

SafeSearch

当Search Agent遇上不靠谱搜索结果,清华团队祭出自动化红队框架SafeSearch

该文第一作者是清华大学博士生董建硕,研究方向是大语言模型运行安全;该文通讯作者是清华大学邱寒副教授;其他合作者来自南洋理工大学和零一万物。 在 AI 发展的新阶段,大模型不再局限于静态知识,而是可以通过「Search Agent」的形式实时连接互联网。 搜索工具让模型突破了训练时间的限制,但它们返回的并非总是高质量的资料:一个低质量网页、一条虚假消息,甚至是暗藏诱导的提示,都可能在用户毫无察觉的情况下被模型「采纳」,进而生成带有风险的回答。
10/16/2025 7:10:00 PM
机器之心
  • 1