AI在线 AI在线

大模型去全球接单平台赚外快,98%惨遭老板退货!ScaleAI宣布新智能体基准:AI绝对自动化几乎为0,大多知名基准过时、封闭

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)如果让大模型去外包平台去接单,它真的可以赚到钱吗? 现在终于有专业的评测机构站出来公布答案了。 不用硬夸AI,事实是让它接单,它会饿死。

编辑 | 云昭

出品 | 51CTO技术栈(微信号:blog51cto)

如果让大模型去外包平台去接单,它真的可以赚到钱吗?

现在终于有专业的评测机构站出来公布答案了。不用硬夸AI,事实是让它接单,它会饿死。

今天一早,大洋彼岸的“AI评测”王牌企业Scale AI刚刚发布了一项非同寻常的新指标:RLI(远程劳动力指数)。

大模型去全球接单平台赚外快,98%惨遭老板退货!ScaleAI宣布新智能体基准:AI绝对自动化几乎为0,大多知名基准过时、封闭

顾名思义,就是专门用于实证评测大模型或者Agent产品能够独立执行真实且具经济价值的远程工作的能力。

它回答的是一个盘桓在AI圈上空的许久没有解决的问题——AI真的可以自动化替代人类有价值的工作吗?

这一基准也第一时间得到了前CEO Alexandr Wang的转发。

大模型去全球接单平台赚外快,98%惨遭老板退货!ScaleAI宣布新智能体基准:AI绝对自动化几乎为0,大多知名基准过时、封闭

结果显示,不管是GPT-5,还是Claude Sonnet、Gemini,亦或是主打通用Agent的Manus,都统统被人类接单首踩在泥土里,真实水平垫底。

1.让大模型去赚外快,打工秒变打脸

如果让GPT去知名接单平台赚任务,是否真的可以赚到钱?

这个问题,最近被 Scale AI 认真地做了一遍实验——他们推出了一个名为 “Remote Labor Index(远程劳动指数,RLI)” 的新基准。

让AI去干真实的自由职业工作,然后看看能不能交差。

Scale把AI模型当作真正的“打工人”,从Upwork平台上挑了240个真实项目,涵盖写报告、修图、建3D模型、做音效、写代码……然后给AI发任务,看它能否完成、能赚多少钱、能替代多少人工成本。

这些项目都是ScaleAI精挑细选出来,真能交易的项目,平均每单高达630美刀以上。

总经济价值: 143,991 美元

项目难度和价值: RLI 项目反映了真实自由职业工作的复杂性,远远超过了以往的基准。

人类平均完成时间: 28.9 小时(中位数:11.5 小时)

项目平均价值: 632.60 美元(中位数:200 美元)

图片图片

结果出来之后,全场沉默了。在RLI榜单中,所有AI模型的表现几乎都跌到了谷底。

2.98% AI提交的项目被“老板退货”

结果是,这240个项目,AI提交的作品,即便成绩最好的选手,也仅被老板认可了6个,234个项目都被退货了。

而更没想到的是,这位最优生,不是GPT-5,也不是Sonnet,而是今年爆火的黑马 Manus,自动化率为 2.5%。

图片图片

其他模型表现更惨:

Claude Sonnet 4.5、GPT-5、Gemini 2.5 Pro、ChatGPT Agent……全部“翻车”,没一个能稳定交付客户满意的作品。

而且,据ScaleAI放出的官方博文介绍,AI虽然很高产,但交付的质量实在是没眼看,可以说全军覆没。平均每个项目的人类用时是28.9小时,AI花同样的“算力时间”,多数交付品却被判为“不合格”。

人工评审总结了失败原因:

  • 45.6%:作品质量太差,像小学生练手。
  • 35.7%:交付不完整,视频截断、文件丢失。
  • 17.6%:格式错误、文件损坏。
  • 14.8%:视觉或逻辑不一致,比如3D建筑的不同视角完全对不上。

唯一的亮点,是在部分音频处理和图片生成任务中,AI能完成得像模像样。比如做广告图、分离人声这类“创意但封闭”的任务。

在同步发布的官方视频中,美人工智能安全中心执行主任 Dan Hendrycks 和 Scale AI 研究主管Bing Liu指出:

AI完成得较好的少数任务多来自创意领域,如音频与图像生成,比如为游戏制作音效、剪辑配音、生成Logo等。这些领域的AI已经能与人类专业人士旗鼓相当。

但凡涉及跨文件逻辑、复杂工具链、长期一致性……AI都露馅了。

但更复杂的任务——那些需要多步骤执行、严格遵守说明、持续数小时甚至更久的项目——仍会让最强的模型出错。

所以,Scale团队得出了很残酷的结论:

“AI绝对自动化几乎为零。”AI还远远不能替代专业远程劳动。

3.这项基准报告,意义有何不同

小编看来,这项新发布的基准,意义非同寻常。

因为,要知道现在AI圈为什么非常卷?其中很大一部分原因,就在于大家一直在已有的基准评测上卷来卷去。从一开始的文科能力再到理科题目,再到今年的各种Coding、Agentic能力。

但问题是,卷来卷去,我们在实测中发现,结果想要勉强满意,大概率都是要多次抽卡的。

所以,既然已有的测评数据集已经不能用来评估人类真正所需的模型能力,我们就必须设计一种新的评估或测评基准,一种真正可以评估如何评价智能体是否真的在做事的方法。

这也是为什么Scale AI要构建一个衡量完整自动化产出的基准,而不是只测单项技能的原因。

如果只测写作或数学等单项技能,就无法评估AI是否能在长时间跨度内持续完成任务。模型可能在某个环节出错,导致整体无效。这些问题在孤立技能测试中很难被捕捉。

我们希望关注那些人类需要花数小时或数天完成的任务,这样的评估更具生态真实性,更能反映现实中的工作状态。

毕竟,真实工作并非一连串孤立任务,它涉及上下文整合、信息综合和跨任务协作。只有把这些因素都处理好,才能真正胜任工作。

因此,我们关注的不是AI是否能解封闭题,而是能否完成一个完整的工作流。

4.许多知名测评基准已过时

那么,究竟这样一份“让AI去自由职业接单平台的测评”,跟其他知名基准,比如GDP-eval、SWE-bench 有何不同?

在采访中,Hendrycks 给出了答案:原来那些基准要么过于封闭,要么测得不准,要么已经过时。

以“humanity's last exam”为例,那类基准是封闭题、非行动型的;而RLI是开放的、具备行为导向的。

GDP-val虽然试图覆盖经济任务,但它声称AI已接近人类水平,这显然不现实。如果真那样,世界早已截然不同。

SWE-bench主要测AI在软件工程领域(如Django类问题)的能力,但业内普遍认为,它对实际开发影响的预测力越来越低,比如对Cursor等工具的应用参考价值有限。

这些基准要么过于封闭,要么测得不准,要么已“封顶”失去预测效度。而RLI旨在更开放、更贴近经济实况,覆盖更广泛的真实任务与项目。

这里,他们还提到了用合成任务来做测试集的不合理之处。“合成任务往往缺乏真实性!”

Liu Bing:为什么要在真实付费任务上测试,而不是合成任务?

Hendrycks :因为真实工作中充满各种边缘情况,而没有什么比现实更复杂。若想了解AI在现实世界的影响,就必须使用包含这些复杂情境的数据集,而不是人造的“假问题”。合成任务往往缺乏真实性。比如,让人编个“刁钻的机器学习题目”,那只是测试数学能力,而非真实工程工作。因此,RLI要立足现实任务,涵盖足够多的复杂案例,才能检验模型在真实挑战中的适应力。

5.智能不等于生产力

那么,这份“AI劳动绩效表”,究竟该如何看待呢?

首先,需要为所有打工人庆祝一番:AI距离替代人类干活,还很远。

Hendrycks 在采访中指出,目前模型在RLI上准确率不足10%,这意味着,在我们测试的所有自由职业任务中,即便是最好的AI模型,也只有不到十分之一的任务能达到客户可接受的专业水准。

这提醒我们,工作不仅仅是回答问题或生成内容,还包括理解上下文、运用工具,并完整地完成任务——而这是当前AI明显欠缺的。

其次,这可以说是全球首次用来评估AI“干活能力”的基准。

它和以前那些论文题型的AI测试(比如MMLU、GSM8K)不同,后者主要是测智商,而RLI关注的是真实世界的交付:

能不能打开文件?能不能保存格式?

能不能从A到Z独立完成一份交差作品?

这才是AI走出实验室,进入社会的真正门槛。

只不过,如今的结果说明还可以说只是万里长征第一步,人类还需要为AI收拾烂摊子。AI能生成,但它还不会交差;它可以写文案、画图、写代码,但在整合和收尾环节一塌糊涂。

正如Hendrycks在采访中最后所说的 ,最关键的一点是,AI的进步必须以真实经济价值为衡量标准。

RLI告诉我们,“智能”并不等于“劳动”。真正的自动化,需要AI全面掌握语境、具备可靠性与判断力。

6.暴风前的平静:别大意,AI自动打工就在眼前

但别急着对AI失望。Scale AI 团队发现,虽然AI“干不好活”,但进步是可测的。

他们用Elo评分体系追踪各模型的相对表现——新一代模型比旧版有稳步提升,哪怕整体分数还低。

图片图片

也就是说,AI距离“自动打工”虽然还远,但它的学习曲线是清晰的。

或许当我们下次再测,Automation Rate从2.5%升到10%、30%、50%——有了新榜单可以刷,早晚,“AI劳动力市场”就真的要诞生了。

别忘了,就在昨天,刚完成重组的OpenAI就马不停蹄的宣布了它们的3年目标:2026年9月之前,让一个自动化的AI研究实习生在数十万张GPU上运行,并在2028年3月之前实现真正的自动化AI研究员。

要实现这个任务,安全策略、价值观对齐、算力、资金的问题显然要交给OpenAI这个庞然大物去处理,但具体该如何评价“AI自动化”能力,恐怕就要从今天Scale AI提出的RLI开始了。

Ps:小编突然想到今年6月,强化学习之父Sutton在智源大会演讲中提到的AI发展的新阶段。

“高质量的人类数据资源已经几乎被用到极限……

如果我们希望 AI 拥有真正的创造力和适应能力,它必须进入一个全新的阶段,也就是‘经验时代’。在这个阶段,AI 不再依赖固定的数据集,而是通过自身与外部世界的交互,从中获取经验并不断进化。”

那看来,从这个测评基准开始,AI真得要进入“接管真实人类派单”的经验时代了!

论文地址也为大家扒下来了,enjoy!

论文链接:

https://scale.com/research/rli

https://static.scale.com/uploads/654197dc94d34f66c0f5184e/Remote_Labor_Index%20(4).pdf

相关资讯

AI startup Scale AI exposed for leaking customer confidential information using Google Docs

Recently, the AI startup Scale AI has been caught in a serious data security scandal. This highly valued company, which was acquired by Meta for 49% of its shares at 14.8 billion dollars, was exposed for using public Google Docs to store confidential information from numerous clients, including Meta, Google, and xAI.Google Docs is a convenient collaboration tool, but its "invite or fully public" sharing method clearly conflicts with any company's strict security standards. According to reports, anyone who knows the link to Scale AI's documents can easily access these Google Docs containing sensitive content such as confidential projects, email addresses, and payment information.A spokesperson for Scale AI responded to this issue, stating that the company is conducting a thorough investigation and has already prohibited any user from publicly sharing documents within the Scale AI management system.
6/26/2025 5:01:50 PM
AI在线

​Meta 拟投资超 100 亿美元,Scale AI 或迎来重大融资机会

根据彭博社的报道,Meta 正与 Scale AI 进行高达数十亿美元的投资谈判。 这笔交易的价值预计将超过100亿美元,将成为 Meta 在人工智能领域最大的一笔外部投资,也是私营公司历史上最大的融资事件之一。 Scale AI 是一家专注于数据标注服务的公司,帮助微软和 OpenAI 等企业训练其人工智能模型。
6/9/2025 9:00:56 AM
AI在线

Meta 巨额投资 Scale AI 引发客户流失疑虑

Meta 近期向 Scale AI 注资143亿美元,获得该公司49% 的股份,这一重大投资引发了行业的广泛关注。 Scale AI 是一家专注于为生成式人工智能提供数据标注服务的初创公司,然而,随着 Meta 的介入,Scale AI 似乎面临着客户流失的危机。 图源备注:图片由AI生成,图片授权服务商Midjourney根据路透社的消息,谷歌原本计划在今年向 Scale AI 支付2亿美元,但现在已转而与 Scale 的竞争对手进行洽谈,考虑减少与 Scale 的合作。
6/16/2025 10:09:52 AM
AI在线
  • 1