AI在线 AI在线

用AI写代码效率反降19%!246项任务实测,16位资深程序员参与

用AI,有经验的开发者反倒被拖慢了? 在一项基于真实开源项目的实验中,研究者发现使用AI工具不仅没有提升开发效率,反而让任务时间增加19%。 这简直与人们预测的结果完全相反。

用AI,有经验的开发者反倒被拖慢了?

在一项基于真实开源项目的实验中,研究者发现使用AI工具不仅没有提升开发效率,反而让任务时间增加19%

图片

这简直与人们预测的结果完全相反。

网友也表示,没有AI辅助写代码,痛苦面具真的要出来了。

图片

下面我们来看看,这一与多数人直觉相悖的结果是如何得出的。

16位经验开发者实测AI使用效率

为了直接评估AI工具对开发者生产效率的影响,研究者让16位经验丰富的开发人员完成246项任务,这些任务都是在知名开源代码仓库中(平均23000星,1100000行代码)。

每项任务被随机分配是否允许使用AI工具。若需要使用AI工具,主要是使用Cursor Pro搭配Claude 3.5/3.7 Sonnet。

随后,研究团队记录开发者在不同条件下完成任务所花费的时间,并收集他们在工作时的屏幕录像。

图片

在这个实验中,每位开发者都会提供一份自己代码仓库中的真实任务列表,作为本次研究的工作内容。

这些任务通常是错误报告、功能请求或用于协调开发的工作项,内容从简短的问题描述到详细的分析不等,所需时间也从几分钟到数小时不等。

图片

收集完任务列表后,开发者会预测在有AI辅助和没有AI辅助的情况下,完成每个任务所需的时间。

随后,这些任务通过模拟抛硬币的方式,随机分配到允许或不允许使用AI的两种条件中。

开发者可按照自己的喜好顺序处理分配到的任务,允许灵活安排工作,甚至有时会同时处理多个任务。

当他们认为某个任务已完成满意后,会向相应代码仓库提交一个请求,该请求通常会由其他开发者进行审查。

使用AI工具竟然比不使用慢19%

开发者在允许使用AI的条件下完成了136个任务,在不允许使用AI的条件下完成了110个任务。

图片

有趣的是,开发人员预测自己的效率会提升24%,但结果却正好相反。

研究发现,当开发者使用AI工具时,完成任务的平均时间增加了19%

图片

不仅如此,几乎所有完成时间的分位数中,允许使用AI的任务耗时都更长。

图片

下图显示了在有效屏幕录像中,开发人员为每种类型的问题所花费的时间比。

图片

可以看出,当允许使用AI时,开发人员会花费较少的时间主动编码和阅读/搜索信息。相反,他们花时间审查AI输出,提示AI系统并等待AI生成。

鉴于这一令人震惊的结果,研究人员进一步探究了可能导致开发者在允许使用AI时花费更多时间的20个相关因素,他们将这些因素分为四类:

直接生产力损失:指使用AI工具过程中,因其本身机制导致开发效率下降。

实验偏差因素:指实验设计或执行中的混杂变量,可能引入偏差或影响结果的外部有效性。

提升开发者表现的因素:指任务、代码仓库或实验环境中的特性,使开发者相较AI更具优势。

限制AI表现的因素:指任务、代码仓库或AI工具/环境中的特性,削弱了AI相对于人类开发者的有效性。

图片

他们在对20个因素进行分析后,发现其中5个因素有定性和定量的证据表明它们确实导致了效率减慢,9个因素的影响证据不明确或存在混合情况,另有6个因素则有证据表明它们并未造成效率下降。

One More Thing

与此同时,《华尔街日报》也报道,就算用AI省下时间,换来的却是更多工作。

图片

这对牛马来说简直是天大的噩耗,笑不出来了属实是。

随着越来越多职场人士开始使用AI助理完成日常任务,平均每天可节省大约一小时工作时间(据商业软件制造商SAP调查)。

但企业并没有给员工更轻松的工作安排,相反,管理层往往期待他们用节省的时间创造更多产出。

在亚马逊,CEO Andy Jassy公开敦促员工

想办法如何利用人工智能更快速、更广泛地为客户进行创新,并以更精简的团队完成更多工作。

相关资讯

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。
1/27/2025 9:51:24 AM
AIGC开放社区

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。
2/8/2025 9:30:00 AM
新智元
  • 1