2024 年另类 AI 评测标准走红：“威尔・史密斯吃意大利面”领衔

作者：远洋 2025-01-01 12:17

随着人工智能视频生成技术的不断发展，一个有趣的现象开始在业内流行：当一家公司发布全新的人工智能视频生成器时，似乎总有人会第一时间用它来制作威尔・史密斯吃意大利面的视频。这不仅演变成了一种网络热梗，更成为衡量新型 AI 视频生成器性能的非官方基准 —— 检验其能否逼真地呈现史密斯狼吞虎咽吃面的场景。史密斯本人也在去年二月通过 Instagram 发布了一段模仿视频，亲自参与了这场网络狂欢。

据 TechCrunch 报道，随着人工智能视频生成技术的不断发展，一个有趣的现象开始在业内流行：当一家公司发布全新的人工智能视频生成器时，似乎总有人会第一时间用它来制作威尔・史密斯吃意大利面的视频。这不仅演变成了一种网络热梗，更成为衡量新型 AI 视频生成器性能的非官方基准 —— 检验其能否逼真地呈现史密斯狼吞虎咽吃面的场景。史密斯本人也在去年 2 月通过 Instagram 发布了一段模仿视频，亲自参与了这场网络狂欢。

AI在线注意到，“威尔・史密斯吃意大利面”只是 2024 年人工智能领域众多奇特“非官方”评测标准中的一个，此前还有一位 16 岁的开发者开发了一款应用程序，让人工智能控制《我的世界》（Minecraft）游戏，并以此测试其建筑设计能力。与此同时，还有一位英国程序员创建了一个平台，让人工智能在“你画我猜”（Pictionary）和“四子棋”（Connect 4）等游戏中相互对战。

人工智能领域不乏更学术化的性能测试，那么为何这些略显怪异的测试反而能够迅速走红呢？原因之一在于，许多行业标准的人工智能基准测试对普通人来说过于晦涩难懂。企业经常标榜其人工智能在奥林匹克数学竞赛或博士级别难题中的解题能力，但大多数人使用聊天机器人只是为了聊天或回复电子邮件。

即使是行业内普遍采用的评测方法，也未必更有效或更具信息量。以受到众多人工智能爱好者和开发者密切关注的公共基准测试平台“聊天机器人竞技场”（Chatbot Arena）为例，其允许任何网络用户对 AI 在特定任务上的表现进行评分，例如创建网页应用程序或生成图像。但参与评分的用户往往不具有代表性，他们大多来自人工智能和科技行业，并且他们的投票也常常基于个人且难以捉摸的偏好。

像“四子棋”“我的世界”和“威尔・史密斯吃面条”这类奇特的人工智能基准测试显然不是严谨的实证研究，甚至不具备普遍适用性。因为即便 AI 能够完美生成“威尔・史密斯吃面条”的视频，也并不意味着其能很好地生成汉堡的图像。

这些另类的 AI 基准测试可能在短期内不会消失，毕竟它们不仅具有娱乐性，而且还易于理解。2025 年，又会有哪些新奇的基准测试会走红呢？

OpenAI开源客户服务代理框架加速企业级AI应用落地

人工智能研究机构OpenAI于6月18日正式开源其客户服务代理框架，标志着该公司在企业级AI解决方案布局上迈出重要一步。该框架通过提供透明工具链和清晰实施案例，旨在推动智能代理系统从实验室走向实际商业应用。技术细节与核心优势.

6/19/2025 2:01:33 PM AI在线

专家揭示构建稳健AI编排层的最佳实践

随着企业加速采用人工智能技术，如何有效管理复杂的AI工作流程成为关键挑战。最新行业分析指出，建立稳健的AI编排层是解决"提示词混乱"问题的有效方案。 AI编排框架的选择困境.

6/19/2025 2:01:28 PM AI在线

江西：促进智能眼镜、智能手表、VR / AR 设备等智能设备消费

AI在线 12 月 24 日消息，江西省人民政府今日印发《江西省“人工智能 ”行动方案》，其中提出，“人工智能 ”生活消费行动方面，加强云侧智能决策、场景引擎和自适应感知等关键技术与购物、文娱、家居等领域深度融合，发展新型智慧电商、智慧娱乐、智慧家居等新业态。促进智能眼镜、智能手表、VR / AR 设备等智能设备消费。据AI在线了解，《方案》还提到，加大具身智能、消费电子等领域传感器研发生产，加快智能穿戴、虚拟现实等领域产品创新，支持企业开展光通信、显示、音视频等模组研发应用。

12/24/2025 4:15:36 PM 清源

2024 年另类 AI 评测标准走红：“威尔・史密斯吃意大利面”领衔

相关资讯

OpenAI开源客户服务代理框架 加速企业级AI应用落地

专家揭示构建稳健AI编排层的最佳实践

江西：促进智能眼镜、智能手表、VR / AR 设备等智能设备消费

OpenAI开源客户服务代理框架加速企业级AI应用落地