苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

作者：故渊 2025-07-24 11:19

AI在线 7 月 24 日消息，科技媒体 NeoWin 今天（7 月 24 日）发布博文，报道称苹果公司携手剑桥大学，提出一种新的 AI 评估系统，通过引入外部验证工具增强 AI 评审员的能力，以提高评审质量。在评估大语言模型（LLM）时，研究人员和开发者越来越多地借助 AI 力量，这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战，在长篇事实核查、高级编码和数学问题等复杂任务中，评估质量往往会下降。

AI在线 7 月 24 日消息，科技媒体 NeoWin 今天（7 月 24 日）发布博文，报道称苹果公司携手剑桥大学，提出一种新的 AI 评估系统，通过引入外部验证工具增强 AI 评审员的能力，以提高评审质量。

在评估大语言模型（LLM）时，研究人员和开发者越来越多地借助 AI 力量，这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战，在长篇事实核查、高级编码和数学问题等复杂任务中，评估质量往往会下降。

苹果携手剑桥大学发表了一篇新研究论文，概述了一种新系统，通过为 AI 评审员配备外部验证工具，以提高其评审质量，从而克服人类和 AI 注释中的局限性。

人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性，面临挑战和偏见，而 AI 在上述复杂任务上则遇到困难。

研究人员创建的评估代理是具有自主性的，它能够评估响应以确定是否需要外部工具，并使用正确的工具。每个评估都经过三个主要步骤：初始领域评估、工具使用和最终决策。

苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

事实核查工具使用网络搜索来验证响应中的原子事实；代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性；数学核查工具是代码执行工具的一个专门版本，用于验证数学和算术运算。

苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

如果发现没有工具对判断有帮助，系统将使用基线 LLM 注释器，以避免在简单任务上不必要的处理和潜在的绩效回归。

AI在线附上参考地址

Can External Validation Tools Improve Annotation Quality for LLM-as-a-Judge?
苹果官方博客

股东施压苹果：要求其公开 AI“黑匣子”，提高隐私保护透明度

根据最新披露的股东提案，多名股东向苹果公司施压，要求其披露更多的 AI 活动细节，进一步提高训练和推理 Apple 智能（Apple Intelligence）的透明度。

1/30/2025 7:00:21 AM

故渊

Siri迎来救星?苹果资深元老空降AI部门，力求重塑AI竞争力

苹果公司正全力加速其人工智能（AI）的研发进程，以期重回行业领先地位。为实现这一目标，苹果进行了重要的人事调整，资深执行副总裁Kim Vorrath被调任至人工智能与机器学习部门，担任AI主管John Giannandrea的首席副手。 Vorrath以其卓越的问题解决能力和推动重大项目成功的经验而闻名，此次调任被视为苹果加强AI团队，并重塑其AI竞争力的关键举措。

1/25/2025 9:16:00 AM

AI在线

苹果计划将谷歌Gemini引入iOS：iOS 18.4测试版泄露第三方AI模型选项

最新消息显示，苹果公司正计划为其海外版iPhone和iPad引入谷歌Gemini模型，进一步扩展其人工智能生态布局。据悉，苹果在2024年WWDC大会上宣布与OpenAI合作，将ChatGPT集成至iOS18系统，但这并非其为iPhone规划的唯一AI模型。除了传闻中针对国行iPhone的阿里系模型外，谷歌Gemini也有望成为海外用户的新选择。

2/25/2025 11:17:00 AM

AI在线

苹果携手剑桥大学设计最佳 AI 评审框架，突破复杂任务评审局限

相关资讯

股东施压苹果：要求其公开 AI“黑匣子”，提高隐私保护透明度

Siri迎来救星?苹果资深元老空降AI部门，力求重塑AI竞争力

苹果计划将谷歌Gemini引入iOS：iOS 18.4测试版泄露第三方AI模型选项