AI在线 AI在线

代码

AI 生成代码隐忧,人工审查缺口成安全新威胁

报告指出在使用 AI 的开发者中,42% 的代码由 AI 生成,其中 16.6% 的开发者依赖 AI 贡献“大部分”代码,3.6% 的代码完全由机器生成。
6/20/2025 2:20:22 PM
故渊

AI写完85%的代码!字节研发负责人和TRAE合作的首个项目官宣开源

创造一个AI Coding的产品,再用这个产品来做AI Coding是什么体验? 未来的AI开发范式究竟是什么样子的,开发者 AI能够迸发出多大的创造力? 也许字节跳动研发负责人洪定坤可以帮你回答这个问题。
6/20/2025 10:34:24 AM

天工不止造物,也能修bug:Skywork-SWE给代码智能体补上软件工程课

400 多年前,宋应星著成《天工开物》。 这是一部写给匠人、也写给未来的书。 它让人相信:技术不是死物,而是人与世界持续互动的方式。
6/20/2025 10:31:27 AM

Agent全自动搭建代码运行环境,实时更新解决评测过拟合/数据污染问题|微软

长期以来主流的代码修复评测基准SWE-bench面临数据过时、覆盖面窄、手动维护成本高等问题,严重制约了AI模型真实能力的展现。 微软发布全新代码修复评测基准SWE-bench-Live,不仅引入了来自GitHub最新的Issue,显著提升了对模型评估的实时性与准确性,还实现代码运行环境的全自动化构建与自动更新,打破了传统静态评测基准的局限。 △图1: SWE-bench-Live leaderboard.全自动化环境搭建传统的代码修复评测基准需要人工构建代码运行环境,不仅成本高昂,且更新缓慢,难以跟上软件开发环境的快速变化。
6/20/2025 9:03:00 AM

AI玩宝可梦找出30年前代码Bug!谷歌论文介绍AI通关全过程,复杂任务都能解

谷歌Gemini 2.5系列大模型技术报告发布,一大重点居然是AI玩《宝可梦》? 没错,就是那个童年回忆里的游戏,谷歌花超长篇幅介绍了Gemini 2.5 Pro玩《宝可梦蓝》时的具体行为,70页的论文,Pokemon关键词出现59次。 其中特别报告了当AI控制的游戏角色濒临死亡时,Gemini 2.5 Pro会陷入“恐慌”状态,导致模型推理能力显著下降,甚至会忘记使用一些基本功能,比如寻路工具。
6/18/2025 2:06:40 PM

亚马逊码农噩梦来袭!沦落「仓库工人」,每天流水线分拣「AI代码」

未来的编程世界,会是灵感与效率的完美平衡,还是流水线式的代码工厂? 最近,亚马逊的软件工程师们发现,他们的日常工作正在发生微妙却深刻的变化。 AI工具被广泛引入,从代码生成到调试优化,程序员被要求以更快的速度交付成果。
6/17/2025 9:11:59 AM

Kimi新模型拿下代码开源SOTA,仅仅72B,发布即开源

深夜,沉寂已久的Kimi突然发布了新模型——开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA。 参数量只有72B,但编程水平比最新的DeepSeek-R1还强,和闭源模型比较也表现优异。 有网友看到后表示,感觉月之暗面的实力被低估了,其水平应该比xAI强。
6/17/2025 9:07:24 AM

1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版

开源社区的人应该对 vLLM 不陌生,它是一个由加州大学伯克利分校团队开发的高性能、开源 LLM 推理和服务引擎,核心目标是提升 LLM 的推理速度(吞吐量)和资源利用率(尤其是内存),同时兼容 Hugging Face 等流行模型库。 简单来说,vLLM 能让 GPT、Mistral、LLaMA 等主流模型系列跑得更快、消耗更少资源,取得这些效果的关键是其创新的注意力机制实现方案 ——PagedAttention。 近日,DeepSeek AI 研究者、深度学习系统工程师俞星凯从零开始构建了一个轻量级 vLLM 实现 ——Nano-vLLM,将代码简化到了 1200 行。
6/13/2025 2:16:37 PM

LeCun世界模型出2代了!62小时搞定机器人训练,开启物理推理新时代

如何让AI代码补全更懂开发者? 中兴通讯团队提出了两个新的评测指标,以及一套仓库级代码语料处理框架。 按照团队的说法,这套方法论不仅为评测代码大模型提供了新视角,也为提升模型在真实工业场景中的代码补全性能开辟了新路径。
6/13/2025 9:10:00 AM

Java 代码居然能玩转 AI?这个神器把机器学习干懵了

兄弟们,是不是每次刷到 AI 相关的文章,看到满屏的 Python 代码就犯嘀咕:咱 Java 程序员在 AI 领域就只能当看客吗? 今天咱就来聊聊这个能让 Java 玩转 AI 的神器 ——Deeplearning4j(简称 DL4J),让咱们手里的 Java 代码也能在 AI 圈儿支棱起来! 一、当 Java 遇上 AI:一场迟到的双向奔赴说起机器学习框架,Python 阵营的 TensorFlow、PyTorch 那是相当风光,仿佛 AI 领域就是 Python 的天下。
6/11/2025 1:10:00 AM
儒猿团队

我如何仅用 0.80 美元使用 Cursor 构建 17,000 行代码库

市面上出现过不少工具来来去去,但 Cursor 搭配 Claude Sonnet 4 这组合,绝对称得上革命性。 三小时内,仅在 /lib 目录,就生成了超过 17,000 行代码,花费却不到一美元。 要么 Cursor 在赔钱运营,就像我叔叔烤火鸡烤焦那样惨烈,要么我找到了一个让 AI 编码极度低价的秘密。
6/10/2025 8:10:59 AM
前端小智

GPT-4o连验证码都解不了?SOTA模型成功率仅40%

当前最强多模态Agent连验证码都解不了? MetaAgentX团队推出首个专注于“多模态交互智能体×CAPTCHA(人机验证)问题”的开放式研究平台——Open CaptchaWorld。 该平台专门用于测试Agent解验证码的能力。
6/4/2025 1:53:22 PM

AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?

编程智能体杀疯了! 不仅能协助写代码,如今编程智能体甚至能实现自我「进化」! 最近,Transformer作者初创Sakana AI和加拿大UBC的Jeff Clune实验室合作,推出了自我改进的智能体——「达尔文-哥德尔机」(Darwin Gödel Machine,简称DGM)。
6/3/2025 9:10:00 AM

北大校友造通用AI Agent,可执行1000个操作,无邀请码立即上手试用

无邀请码,就可直接上手! 北大校友官宣推出号称“最强通用Agent” Fairies(中译仙女),能执行Deep research、代码生成、发邮件等1000个操作。 编辑部的小伙伴一上手实测就发出了如下感叹~关键是无需邀请码,Mac和Windows用户只需下载APP就能立即上手试玩。
6/3/2025 8:39:00 AM

谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍

在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。 谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒的生成速度震惊学界,展现了扩散模型在并行生成上的潜力。 然而,开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退,实际推理速度长期被自回归模型压制.近日,NVIDIA 联合香港大学、MIT 等机构重磅推出 Fast-dLLM,以无需训练的即插即用加速方案,实现了推理速度的突破!
5/30/2025 3:52:05 PM

准确率92.7%逼近Claude 3.5、成本降低86%,开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究! 来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架,直接把代码定位准确率拉到了 92.7% 的新高度。 该研究已被 ACL 2025 录用。
5/29/2025 9:18:20 AM

我们成了“真·搬砖工”!亚马逊“编码文化”巨变开始了,程序员正在“仓库工人化”:快乐消失了,为保饭碗纷纷加入正义联盟

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)AI 的到来,也许会让程序员告别重复劳动,走向创意巅峰。 但在亚马逊,代码的世界,似乎也正步入流水线时代。 一些开发者却感受到另一种“穿越回18世纪机器工厂”般的现实:节奏更快、思考更少、压力更重。
5/26/2025 1:50:15 PM
云昭

三大Agent框架对比分析开发者必看

一、Agent技术演进与框架选型关键在GPT-4、Claude 3等大模型突破性发展的推动下,AI智能体(Agent)技术正在经历从实验性工具到生产级系统的质变。 本文将从架构设计、任务处理机制、开发范式三个维度,对AutoGPT、LangChain、BabyAGI三大主流框架进行深度技术解构,辅以代码级分析及性能测试数据,为开发者提供选型决策依据。
5/26/2025 2:15:00 AM
程序员秋天