AI在线 AI在线

劳德研究所启动“弹弓”AI资助计划:15个团队入选,重新定义AI评估标准

周四,劳德研究所(Loud Institute)宣布启动首批“弹弓(Slingshot)”人工智能资助计划,旨在“推进人工智能的科学与实践”。 该计划通过为研究人员提供传统学术机构难以匹配的资源——包括资金、计算能力以及产品和工程支持——以加速AI研究与落地创新。 作为回报,受助者需产出可实际转化的成果,如初创公司、开源项目或其他形式的研究成果。

周四,劳德研究所(Loud Institute)宣布启动首批“弹弓(Slingshot)”人工智能资助计划,旨在“推进人工智能的科学与实践”。该计划通过为研究人员提供传统学术机构难以匹配的资源——包括资金、计算能力以及产品和工程支持——以加速AI研究与落地创新。作为回报,受助者需产出可实际转化的成果,如初创公司、开源项目或其他形式的研究成果。

首批共有 15个项目入选,重点聚焦当前人工智能领域最具挑战性的议题之一——AI评估体系。其中多个项目已经在业界拥有知名度,如命令行编码基准测试工具 Terminal Bench,以及长期关注通用人工智能(AGI)能力测评的 ARC-AGI 项目最新版本。

机器人 人工智能 AI

与此同时,多支团队正尝试以全新视角解决评估瓶颈。加州理工学院与德克萨斯大学奥斯汀分校合作开发的 Formula Code 项目,旨在评估AI代理在优化现有代码时的表现;哥伦比亚大学团队推出的 BizBench,则面向“白领AI代理”构建综合测试标准,聚焦AI在商业和决策类任务中的真实表现。此外,还有部分项目探索强化学习与模型压缩的新方法,以建立更具普适性和可扩展性的评估框架。

值得关注的是,SWE-Bench 联合创始人 John Boda Yang 也加入了本轮计划,他将领导新项目 CodeClash。该项目受SWE-Bench成功经验启发,计划通过动态、竞赛式机制评估AI代码能力。

Yang在接受TechCrunch采访时表示:“我认为持续利用第三方核心基准进行开放评估,是推动整个行业进步的关键。但我也担心,未来的评测体系若被个别公司垄断,将可能削弱研究的开放性与可比性。”

通过“弹弓”计划,劳德研究所正试图在学术与产业之间搭建新的桥梁,使前沿AI研究成果能够更快地转化为实际应用。这一举措被视为当前AI领域评估体系重塑的重要一步。

相关资讯

江西:促进智能眼镜、智能手表、VR / AR 设备等智能设备消费

江西:促进智能眼镜、智能手表、VR / AR 设备等智能设备消费

AI在线 12 月 24 日消息,江西省人民政府今日印发《江西省“人工智能 ”行动方案》,其中提出,“人工智能 ”生活消费行动方面,加强云侧智能决策、场景引擎和自适应感知等关键技术与购物、文娱、家居等领域深度融合,发展新型智慧电商、智慧娱乐、智慧家居等新业态。 促进智能眼镜、智能手表、VR / AR 设备等智能设备消费。 据AI在线了解,《方案》还提到,加大具身智能、消费电子等领域传感器研发生产,加快智能穿戴、虚拟现实等领域产品创新,支持企业开展光通信、显示、音视频等模组研发应用。
12/24/2025 4:15:36 PM 清源
调查:超72% 的企业选择 AI 工具时最看重易用性

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM AI在线
​Instacart CEO即将加盟 OpenAI,领导应用部门

​Instacart CEO即将加盟 OpenAI,领导应用部门

Instacart 的首席执行官 Fidji Simo 将于8月18日正式加入 OpenAI,担任应用部门的负责人。 Simo 将领导 OpenAI 公司至少三分之一的业务,并直接向 OpenAI 的首席执行官 Sam Altman 汇报。 她的新职位是 “应用首席执行官”,主要任务是扩展和推动人工智能技术的应用场景。
7/22/2025 4:11:19 PM AI在线