AI在线 AI在线

刚刚,豆包编程模型来了,我们用四个关卡考了考它!

AI 编程助手,人人都爱。 从补全一行代码到生成整个函数,它们极大地改变了我们的开发工作流,就连曾经对它们嗤之以鼻的 Linus Torvalds 也改变了想法。 他在近日一次访谈中表示:「我认为它们是能帮助我们更好地完成工作的工具。

AI 编程助手,人人都爱。从补全一行代码到生成整个函数,它们极大地改变了我们的开发工作流,就连曾经对它们嗤之以鼻的 Linus Torvalds 也改变了想法。他在近日一次访谈中表示:「我认为它们是能帮助我们更好地完成工作的工具。」

但它们也常会在关键时刻翻车:当你甩给它一个跨越了多个文件、藏得极深的 Bug 时,它失忆了;当你让它重构一个复杂的旧模块时,它开始胡言乱语;当项目变大、依赖变多时,大多数 Copilot 就从助手退化成了麻烦制造机。很明显,对于这些更为复杂的需求,我们需要的不再是代码补全工具,而是一个能理解复杂上下文、自主规划任务、甚至能帮我们调试的 Agentic Coder。

2025 年,AI 编程助手正分化为两条主要路线。第一条可称为 IDE 增强路线,以 GitHub Copilot 为代表。它们深度集成在开发者的编辑器中,更像一个「副驾驶」,在你编程时提供代码补全、上下文感知建议和聊天辅助,目标是提升开发者的编辑效率。

第二条是 Agentic 路线,即任务委托路线,以 Claude Code 为代表。这条路线的工具更像一个「结对工程师」,通常在终端中运行。开发者不再是逐行获取建议,而是将整个复杂的、多步骤的任务(如项目重构、跨语言移植、Bug 修复)委托给它,由它自主规划和执行。这正是「Agentic Coder」的核心理念。

然而,就在 2025 年 10 月底,大量开发者在社区抱怨 Claude Pro 计划的每周用量限制过于严苛,甚至有很多用户反馈称,在进行了几小时的严肃编码工作后就撞到了「周上限」,导致工具无法用于严肃工作。更别说 Anthropic 对中国用户的限制。这在开发者中制造了一个明显的痛点:谁能提供一个既具备强大 Agentic 能力(特指第二条路线),又真正好用、管够的编程模型?

图片

今天,火山引擎带着豆包编程模型 Doubao-Seed-Code 入场了;顾名思义,这正是一个专为编程任务设计的模型。

图片

为了检验 Doubao-Seed-Code 的能力,我们将用几个真实工作流中的「硬骨头」来考验它,但在此之前,我们先了解下它的基准表现与核心能力。

一、Doubao-Seed-Code:实力登顶权威榜单

豆包编程模型 Doubao-Seed-Code 在 Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等多项权威评测中均表现优异,仅次于甚至超过了 Claude 4.5 Sonnet。

图片

而更亮眼的是:它登顶了 SWE-Bench Verified 榜单。值得注意的是,这一成绩是其与 Trae 相结合实现的。

图片      SWE-Bench Verified 榜单当前前十名

这恰好印证了 Doubao-Seed-Code「为 Agentic Coding 优化」的定位:它不仅是一个基础模型,更是为任务委托型工作流设计的大脑。须知,SWE-Bench 不是一个简单的算法题库,它是一个评估模型在真实 GitHub 项目中修复 Bug 和处理 issue 能力的基准,含金量很高 。能在 Trae 这样的 Agentic 框架中与之携手登顶,证明了它在执行复杂、多步骤的真实工程任务时的潜力。

1、核心能力:原生 256K 长上下文

Doubao-Seed-Code 的强大榜单表现离不开这个基础:原生 256K 长上下文

这个数字意味着模型有能力一次性读完并理解极其复杂的项目。在真实的编程场景中,一个 Bug 可能横跨多个文件、一个功能可能依赖数十个模块。Doubao-Seed-Code 的 256K 上下文使其能轻松处理长代码文件、多模块依赖等复杂场景。

不仅如此,Doubao-Seed-Code 还是国内首个支持视觉理解能力的编程模型,能参照 UI 设计稿、截图或手绘草图生成代码,或对生成页面进行视觉比对,自主完成样式修复和 Bug 修复,大幅提升前端开发效率。

2、变强之路:Coding RL Agent at Scale

如果说 256K 上下文是让 Doubao-Seed-Code 看得远,那么它做得好的秘密武器就是:Coding RL Agent at Scale(编程智能体大规模强化学习训练)。

火山引擎构建了一个大规模的强化学习系统来训练这个编程模型,

这套系统内构建了覆盖十万容器镜像的庞大训练数据集,具备万级并发沙盒会话的能力,可以对上千卡的单个 RL 任务实现高效训练。基于这套系统,模型无需蒸馏或标注的冷启动数据,完全依靠端到端强化学习训练即可练就顶尖的 Agent 能力,优化路径更简洁高效。

这种训练方式的效果体现在了基准测试上,官方信息显示,在 SWE-bench 基准上,仅 RL 训练就让模型达到了当前最优(SOTA)水平,充分验证了纯强化学习在真实软件工程场景下的强大潜力。

如下图的数据所示,在 multi-swe-bench 和 swe-bench-verified 两个基准上,Doubao-Seed-Code 的性能在训练过程中呈现一致的上升趋势,这表明模型具有良好的泛化能力。

图片

理论和数据固然亮眼,但它在真实工作流中的表现究竟如何?我们马上进入实战环节来一探究竟。

二、Agentic Coding 大考:四大关卡,实战见真章

我们这次对 Doubao-Seed-Code 的考验主要围绕其三个核心能力 :

  • Agentic Coding(任务规划能力):能否把一个模糊的、多步骤的任务拆解并执行?

  • 长上下文(256K): 能否处理跨越多个文件、依赖关系复杂的屎山代码?

  • 调试能力(软件工程): 能否像一个真实工程师一样,根据报错信息定位并修复 Bug?

1、序章:30 秒「无痛换芯」

当然,在开始评测之前,先搞定接入。

一句话总结:体验非常丝滑。

对于广大使用 Claude Code 的开发者,迁移到 Doubao-Seed-Code 的成本几乎为零,因为它一开始就原生兼容 Anthropic API,用户仅需修改配置文件中几行代码即可将模型切换到 Doubao-Seed-Code。而如果使用火山引擎官方的 CLI,veCLI,则可以直接使用 Doubao-Seed-Code 模型,无需额外配置。本文主要使用 Claude Code 进行测试。

不仅如此,开发者还能将 Doubao-Seed-Code 无缝集成到 Cursor、Cline、Codex CLI、Trae 等主流智能编程环境中,实现即连即用的高效体验。

总之,我们花了不到 30 秒就完成了这一切。下面,大考开始。

2、关卡一:Python 脚本重构

首先,我们尝试一个简单任务:让 Doubao-Seed-Code 将一个由 Gemini 生成的垃圾 Python 脚本重构成结构优良的脚本。

这是一个用于数据处理和报告的模拟脚本 ,但集各种陋习于一身:所有逻辑都塞在一个 main 函数里、使用了全局变量、混乱的 try/except 嵌套和 if/else 逻辑、到处都是 print () 语句、混合了数据获取和数据解析以及文件写入、注释混乱。刚刚,豆包编程模型来了,我们用四个关卡考了考它!

结果,耗时不到 3 分钟,Doubao-Seed-Code 不仅完成了对这个脚本的优雅重构,还主动编写了测试脚本,对重构后的代码进行了测试 。

Doubao-Seed-Code 的调试能力(软件工程)能力得到了初步验证,顺利过关。

3、关卡二:C++ 到 Python 跨语言重构

开胃菜结束,我们直接上硬菜,考验它的长上下文和任务规划能力。

任务: 将 GitHub 上一个开源的 C++/OpenGL 版《打砖块》游戏,完整重构为一个 Python 实现 。

  • 原项目地址:https://github.com/sdavydouski/breakout 

必须说明,这个任务并不简单。因为这已经不是简单的代码翻译,这几乎等于跨语言的项目重建。这个任务的难度体现在:

  • 范式鸿沟:模型需要处理 C++(静态编译型)和 Python(动态解释型)之间巨大的语法和设计范式差异。

  • API 转译:它必须理解 C++ 中底层的 OpenGL 图形 API,并将其智能地转译为 Python 生态中(如 Pygame )的高级 API 和事件驱动的游戏循环。

  • 项目级理解:最关键的是,这是一个完整的项目。模型必须利用其长上下文能力,一次性读懂代码库中所有 C++ 文件(.h 和 .cpp)的复杂依赖关系。

  • 自主规划:它不能逐行翻译,而必须自主规划出一个全新的 Python 项目结构,并正确处理所有游戏素材。

可以说这是对模型 256K 长上下文 和 Agentic 任务规划能力的一次压力测试。

我们将项目 clone 下来,启动配置好 Doubao-Seed-Code 的 Claude Code,然后输入一条指令:「将这个 C++ 项目重构为 Python 项目,使用其原本的素材。」接下来就是见证奇迹的时刻,以下视频展示了其最初的执行阶段:

刚刚,豆包编程模型来了,我们用四个关卡考了考它!可以看到,Doubao-Seed-Code 首先分析了整个代码库,准确理解了其功能和 C++/OpenGL 技术栈。然后,它制定了详细的重构计划,包括创建 Python 项目结构、安装 Pygame 库、建立游戏主类和游戏循环、重构游戏对象、实现关卡系统等等,并开始一步步执行 。

从实现到测试完成,整个项目耗时近 40 分钟,而我们所做的,仅仅是提供了最初的指令和中间的几次文件操作许可。

图片

      项目结束时,Doubao-Seed-Code 给出的总结

一切完成后,Doubao-Seed-Code 还为我们撰写了详细的文档,并交付了一个完全可玩的 Python 版《打砖块》游戏。

刚刚,豆包编程模型来了,我们用四个关卡考了考它!      Doubao-Seed-Code 重构的游戏完整可玩,且音乐也非常适配

这已经不是简单的「代码补全」,而是真正的「Agentic Coding」。它完美地践行了我们在引言中提到的 Agentic 路线:我们不再是逐行获取建议,而是将一个横跨范式鸿沟和 API 转译的复杂项目,完整地委托给它,由它自主规划并最终执行。这正是 Agentic Coding 的核心理念。

4、关卡三:从零开始的软件创造

在跨语言重构之后,我们想看看 Doubao-Seed-Code 从零开始构建一个全新项目的能力。

这一次,我们想让它为我们编写一个桌面宠物小程序。不过,在开始之前,我们遇到了一个很现实的问题:我们没有素材。

使用即梦,我们先生成了一张卡通树懒睡觉图,然后使用这张图继续让即梦生成了一段树懒站起来的视频。接下来,我们需要将其中的可爱树懒提取出来,并将背景透明化。在使用 ffmpeg 提取出所有帧之后,我们意识到接下来的工作完全可以让 Doubao-Seed-Code 来完成!

简单描述下我们的需求,剩下的就交给 Doubao-Seed-Code 了:

这里有 300 帧图片,我需要你将其制作成 5 秒的 gif 动图。但首先,你需要提取出图中的人物,去掉背景和左上角及右下角的背景水印。给我一张透明背景的动图。

Doubao-Seed-Code 立刻理解了任务,它安装了 rembg、imageio 等相关库,并帮我们完美地处理了所有原始帧,最终交付了两张我们需要的核心素材:sleep.gif 和 stand.gif。

接下来我们将素材放入项目文件夹,再次唤起 Doubao-Seed-Code,输入以下指令:

使用 Python 编写一个桌面宠物小程序,这个宠物是一只卡通树懒,它一般在屏幕上睡觉(sleep.gif)。但如果用户点击它,它就会站起来 (stand.gif)。之后,它又会变回睡觉姿势。用户可以在屏幕上拖动它到任何位置。宠物画面宽度固定为 300px。透明背景。使用 assets 文件夹中的素材。

同样,它一次性构建完成。

刚刚,豆包编程模型来了,我们用四个关卡考了考它!运行看看效果:图片

这就是我们预期想要实现的目标!它不仅完全实现了我们指令中的所有功能(睡觉、点击站立、可拖动、透明背景),而且整个工作流(从 AI 生成素材、到 AI 处理素材、再到 AI 构建软件)都展现了极高的流畅度。

当然,我们还可以进一步与 Doubao-Seed-Code 交互,让其对这个桌面宠物进行改进,比如提供更多素材让其具备更加风格的动作库、设置双击它打开某个链接或 AI 助手、让它根据天气和时间自动执行执行不同的动作等等。

一个桌面宠物还不够。为了更好地领略它的创造能力,我们还让 Doubao-Seed-Code 从零开始构建了其它几个风格迥异的有趣项目。我们发现,它基本都是一次成形,偶尔需要的反馈也只是明确需求或提供额外信息。当遇到 Bug 时,我们也只需将报错信息直接反馈回去,它也能直接解决。

比如一个会动态演进的弹珠撞墙模拟程序:

图片

提示词:用 Pyhon 写一个模拟程序:一个小球在一个六边形中弹跳。这个六边形的六条边各有特性,小球撞上不同的边会触发不同的效果。撞上边 1 会导致小球颜色随机变化,边 2 导致小球变大 10%,边 3 导致小球变小 10%,边 4 导致小球加速 20%,边 5 导致小球减速 20%。边 6 会在六边形中央克隆出一个一样的小球。如有文字,使用微软雅黑字体。

一个游玩难度颇大的邯郸学步小游戏:

图片

构建一个邯郸学步小游戏。游戏一开始会随机展示一个火柴人走路或扭动的样子(四肢和头部随机摆动),玩家需要操控另一个火柴人模仿它并且只有 2 秒反应时间。模仿正确则得 1 分,错误扣 1 分。10 分玩家胜利,负 10 分则玩家失败。玩家使用方向键分别控制四肢,用空格键控制火柴人头部摆动。如有文字,使用微软雅黑字体。

我们甚至还让 Doubao-Seed-Code 基于我们之前关于 Yoshua Bengio 引用量突破百万的报道构建了一个像素风格的展示网页 —— 我们所做的仅仅是提供一份 docx 文档。

刚刚,豆包编程模型来了,我们用四个关卡考了考它!提示词:这里的 docx 文件是我们之前关于 Yoshua Bengio 引用量破百万的专题报道,请基于这些素材,构建一个介绍网页,生动地展示 Bengio 取得的这一成绩。使用多页网页的形式,采用现代、美观的像素风格,其中首页集中展示主要的信息,再通过几个按钮链接到其它网页。

从数据处理脚本、跨语言游戏移植,再到创意小程序和专题网站,Doubao-Seed-Code 在从零开始这一关卡中,充分展现了其强大的 Agentic 规划能力和工程实现能力。

5、关卡四:一个实际问题

最后,我们来让 Doubao-Seed-Code 解决一个实际问题。

作为一家专业的 AI 媒体,arXiv 上的新论文是机器之心日常报道的重要来源。但每天手动去刷几十位行业技术大佬的论文更新情况,费时费力还容易遗漏。

于是,我们决定让 Doubao-Seed-Code 帮我们解决这个痛点:构建一个「论文查找器」。首先,将我们的需求组合成一个提示词,表达清楚即可:

用 Python 构建一个论文查找器,其功能为:检索 arXiv,找到用户提供的 authors 文件中所有人物过去一周内最新更新或发布的三篇论文,将结果输出为一个 Markdown 文件,内容包括人名、论文标题和链接。如果过去一周没有论文更新,则无需包含进来。作为参考,这是查询 Yoshua Bengio 论文的 arXiv API:

https://export.arxiv.org/api/query?search_query=au:+Bengio_Yoshua&sortBy=lastUpdatedDate&sortOrder=descending&max_results=100

顺带一提,这一次我们选择在 Trae 中完成这个项目。

刚刚,豆包编程模型来了,我们用四个关卡考了考它!7 分钟,Doubao-Seed-Code 就搞定了一切。它还生成了一个 authors.txt 文件,里面包含 Geoffrey Hinton 等四位 AI 领域的传奇人物,现在我们为这份名单添加更多人物(包括近期有更新的作者),测试一下。刚刚,豆包编程模型来了,我们用四个关卡考了考它!完美!现在,我只需要把它设置成一个定时任务,每天上午自动运行。我们再也不用担心错过前沿 AI 论文选题了。

三、最后聊点实在的:要花多少钱?

实战评测之后,终于到了最实在的部分:价格。毕竟,如果像 Claude Pro 那样有严格的用量限制或高昂的门槛,再强大的 Agentic Coder 也难以「飞入寻常百姓家」。

而在价格方面,Doubao-Seed-Code 也试图解决前文中提到的痛点。恰逢双十一,火山引擎同步推出了一个 Coding Plan 套餐包。

这个「方舟 Coding Plan」是专为开发者量身打造的 AI Coding 场景订阅服务。作为「双十一」的重头戏,它的套餐包价格非常亮眼:

  • Lite 套餐(适合大多数开发者):首购首月仅需 9.9 元 / 月;用一杯咖啡的价格」,就能享受一整个月的优质编码辅助。后续续费为 40 元 / 月。

  • Pro 套餐(适合复杂项目开发):首购首月仅需 49.9 元;后续续费为 200 元 / 月。

除了套餐包的巨大优惠,Doubao-Seed-Code 在调用价格上也实现了普惠开发者。它通过采用全量透明 Cache 技术,能使成本再降低 80%。不仅如此,火山引擎还为该模型推出了分层定价模式。官方表示,在实际使用场景中,综合使用成本可降低 62.7%,实现了目前国内最低价格

总而言之,Doubao-Seed-Code 在尝试解决 Agentic Coding 路线性能问题的同时,也通过这个 Coding Plan 对前文提到的价格和用量限制痛点做出了回应。

四、强大的 Agentic Coder,更是完美平替?

从易到难再到我们日常工作中的实际问题,一场评测下来,我们认为连通四关的豆包编程模型 Doubao-Seed-Code 令人印象深刻,足称「强大」。而且很明显它与 IDE 增强路线的辅助补全不同,其核心能力更多体现在对复杂、多步骤任务的自主规划与执行上。

无论是重构屎山代码,还是挑战 C++/OpenGL 到 Python 的跨语言移植,亦或是从零孵化一只功能完备的「桌面树懒」;乃至帮我们解决 arXiv 刷论文的真实痛点,它都展现出了强大的 Agentic Coding 能力,证明了自己是 Agentic 路线的有力竞争者。

原生 256K 的长上下文能力及其背后 Coding RL Agent at Scale 的端到端强化学习训练共同构成了 Doubao-Seed-Code 应对「真实编程场景」的技术基础。

Doubao-Seed-Code 的意义还不止于技术。它不仅解决了 Agentic 路线的性能问题 ,更通过 Coding Plan 和 API 兼容性解决了开发者们在原版 Claude Code 上遇到的价格、用量限制乃至用户限制的痛点。

它不仅是一个高性能的结对工程师,也是一个高性价比、易于获取的前沿编程模型的「完美平替」。它让我们看到了 Agentic Coding 真正走向普惠、人人可用时代的可能。

点击文末阅读原文跳转,即可查看「方舟 Coding Plan」。

相关资讯

字节跳动AI编程产品Trae国内版发布 配置豆包1.5pro、满血版DeepSeek模型

2025年3月3日,中国首款AI原生集成开发环境(AI IDE)Trae国内版正式上线。 该产品由字节跳动技术团队推出,旨在为开发者提供更高效、智能化的编程体验。 Trae国内版配置了Doubao-1.5-pro,并支持切换满血版DeepSeek R1、V3模型,能够显著提升编程速度,助力开发者应对复杂技术挑战。
3/3/2025 11:19:00 AM
AI在线

​阿里夸克AI月活跃用户达1.5亿,超越节跳动豆包

据最新报道,中国电商巨头阿里巴巴集团人工智能应用 Quark(夸克) 在三月份的月活跃用户数(MAU)达到了近1.5亿,成功超越了字节跳动的 Doubao,成为中国最受欢迎的 AI 应用。 根据南华早报的报道,紧随其后的是 Doubao(豆包),月活跃用户接近1亿,DeepSeek 则约为7700万。 值得一提的是,阿里巴巴早前曾表示 Quark 的用户数已经达到2亿。
4/15/2025 3:01:29 PM
AI在线

DouBao large model evolves again! Global leading AI Agent applications accelerate落地!

Recently, the DouBao large language model has welcomed its brand new version 1.6, marking another leap in its comprehensive capabilities. In core areas such as reasoning, mathematics, and instruction-following, DouBao 1.6 has achieved significant performance improvements while greatly reducing the barriers for user adoption, driving the rapid application of AI Agents in industries such as consumer electronics, automobiles, and finance.According to the latest released data, DouBao 1.6 has ranked among the global leaders in complex reasoning, competitive-level mathematics, multi-turn dialogue, and instruction-following tests. For instance, in the evaluation based on Beijing Haidian District's simulated college entrance exam papers, DouBao 1.6 improved the science score by 154 points and the liberal arts score by 90 points compared to last year.
6/17/2025 6:01:36 AM
AI在线
  • 1