AI在线 AI在线

英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

英国人工智能安全研究所(AI Safety Institute)近日推出了一款名为“Inspect”的 AI 模型安全评估平台,该平台采用开源授权方式,向全球 AI 工程师免费开放,允许工程师们评估自家模型性能及安全性。IT之家注意到,这款 Inspect 平台主要由三大主要框架组成,分别为“数据集”、“求解器(Solver)”、“评分器”,可用来评估各款 AI 模型的特定方面能力,包含模型的核心知识储备量、推理能力与自主能力等,相关框架将根据模型测试结果逐一就各项进行评分;除了内置的一系列测试器外,Inspect

英国人工智能安全研究所(AI Safety Institute)近日推出了一款名为“Inspect”的 AI 模型安全评估平台,该平台采用开源授权方式,向全球 AI 工程师免费开放,允许工程师们评估自家模型性能及安全性。

英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

IT之家注意到,这款 Inspect 平台主要由三大主要框架组成,分别为“数据集”、“求解器(Solver)”、“评分器”,可用来评估各款 AI 模型的特定方面能力,包含模型的核心知识储备量、推理能力与自主能力等,相关框架将根据模型测试结果逐一就各项进行评分;除了内置的一系列测试器外,Inspect 也允许开发者以 Python 外挂其他测试框架。

英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

英国 AI 安全研究所所长 Ian Hogarth 声称,他们推出 Inspect 平台的原因是“相信开源的力量”,该平台能够鼓励更多人作出贡献,同时还能提高 AI 模型透明度及可重复性,同时降低工程师们的成本。

英国推出开源免费 AI 评估平台 Inspect,可为模型知识 / 推理能力评分

参考

Inspect 项目官网

相关资讯

新加坡半导体 AI 初创公司 SixSense 获 850 万美元融资

新加坡一家名为 SixSense 的深科技初创公司,最近成功融资850万美元,标志着其在半导体制造领域的 AI 技术应用取得了新的进展。 此次融资由 Peak XV 的 Surge(原 Sequoia India & SEA)主导,其他投资者包括 Alpha Intelligence Capital、FEBE 等。 这轮融资使 SixSense 的总融资额达到了约1200万美元。
8/1/2025 10:42:13 AM
AI在线

新加坡AI初创公司SixSense获850万美元融资

在半导体行业,如何快速发现和解决生产过程中的缺陷一直是一个棘手的问题。 新加坡深科技初创公司 SixSense 正是瞄准了这一挑战,推出了一款 AI 驱动的平台,旨在帮助芯片制造商实时预测和检测潜在的芯片缺陷。 近日,SixSense 成功完成了850万美元的 A 轮融资,使其总融资额达到1200万美元。
8/1/2025 2:12:07 PM
AI在线

全球首位 AI 软件工程师 Devin 问世:能自学新语言、开发迭代 App、自动 Debug

初创公司 Cognition 近日发布公告,宣布推出全球首个 AI 软件工程师 Devin,并号称会彻底改变人类构建软件的方式。Devin 在 SWE-bench 编码基准测试中取得了突破性的成功,展示了其执行复杂任务的能力,甚至超越了顶尖的人类工程师。*Devin 是在数据集 25% 的随机子集上进行评估的。Devin 是无辅助的,而所有其他模型都是有辅助的(这意味着模型被告知哪些文件需要编辑)。Devin 擅长长期推理能力,可以自主规划和完成软件项目,并在此过程中做出数以千计的准确决策。IT之家附上 Devin
3/13/2024 10:06:03 AM
故渊
  • 1