AI在线 AI在线

OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系

OpenAI宣布启动先锋计划,旨在改善AI模型评分方式,创建更符合实际应用场景的评估体系。该计划将专注于法律、金融、医疗等特定领域,并与初创公司合作设计定制化基准测试。#AI技术# #OpenAI#

OpenAI 宣布启动 OpenAI 先锋计划(OpenAI Pioneers Program),致力于改善当前 AI 模型的评分方式。该公司认为现有的 AI 基准测试存在缺陷,而该计划将专注于创建能够“设定优秀标准”的评估体系。

OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系

随着 AI 技术在各行业的应用加速普及,深入了解并提升其在现实世界中的影响力变得至关重要。OpenAI 在其博客中指出,创建特定领域的评估指标是更好地反映实际应用场景、帮助团队在实际且高风险环境中评估模型性能的有效途径之一。

近期,众包基准测试平台 LM Arena 与 Meta 的 Maverick 模型引发的争议凸显了一个问题:如今,人们很难明确区分不同 AI 模型之间的差异。许多广泛使用的 AI 基准测试侧重于衡量模型在一些晦涩任务上的表现,例如解决博士级别的数学难题。还有一些基准测试容易被操纵,或者与大多数人的偏好不一致。

据AI在线了解,通过先锋计划,OpenAI 希望为法律、金融、保险、医疗保健和会计等特定领域创建基准测试。该实验室表示,在未来几个月内,将与“多家公司”合作设计定制化的基准测试,并最终将这些基准测试公开,同时提供“行业特定”的评估。

OpenAI 在博客中提到,先锋计划的第一批参与者将专注于初创公司,这些公司将帮助奠定该计划的基础。他们将从众多初创公司中挑选出少数几家,这些公司都在从事高价值、应用广泛的用例,AI 在其中可以产生实际影响。

参与该计划的公司还将有机会与 OpenAI 团队合作,通过强化微调技术改进模型。这种技术可以针对一组特定任务优化模型,从而提升其在特定领域的表现。

然而,一个关键问题是 AI 社区是否会接受由 OpenAI 资助创建的基准测试。此前,OpenAI 曾在财务上支持过基准测试工作,并设计了自己的评估方法。但与客户合作发布 AI 测试可能会被视为在道德上存在争议。

相关资讯

发烧友!一国外软件工程师买下OGOpenAI.com域名并重定向至DeepSeek

最近,一位软件工程师安纳奈・阿罗拉(Ananay Arora)以 “不到一顿 Chipotle 餐” 的价格购买了域名 OGOpenAI.com,并将其重定向至中国的 AI 实验室 DeepSeek。 这个决定引发了许多人的关注,因为 DeepSeek 近期在开源 AI 领域中取得了显著进展,成为了热议的话题。 DeepSeek 发布的 AI 模型在技术上与早期的 OpenAI 模型相似,能够离线使用,并且任何具备相应硬件的开发者都可以免费使用。
1/24/2025 10:31:00 AM
AI在线

人形机器人新秀 Figure 宣布独立研发,终止与OpenAI的合作关系

近日,硅谷人形机器人公司 Figure 通过社交媒体宣布,正式终止与人工智能巨头 OpenAI 的合作。 这一决定令业内人士颇感意外,尤其是 Figure 曾在去年与 OpenAI 达成协议,共同开发新一代面向人形机器人的 AI 模型。 Figure 创始人布雷特・阿德科克(Brett Adcock)表示,公司在端到端机器人 AI 技术上取得了 “重大突破”,因此决定将重心转向自主研发。
2/5/2025 9:45:00 AM
AI在线

最贵!OpenAI重磅推出升级版AI模型o1-pro,生成价格是o1的十倍

人工智能研究公司OpenAI近日宣布,已在其开发者API中推出一款名为o1-pro的全新“推理”AI模型。 据OpenAI透露,o1-pro相较于其现有模型o1,投入了更多的计算资源,旨在提供“始终如一的更优响应”。 然而,这款高性能模型目前仅面向部分特定的开发者开放——具体而言,是那些在OpenAI API服务上至少消费过5美元的用户。
3/20/2025 9:22:00 AM
AI在线
  • 1