AI在线 AI在线

首个video2code基准IWR-Bench发布:让模型“看视频写网页”,SOTA仅36.35分

IWR-Bench由上海人工智能实验室联合浙大、2077AI、港中文、斯坦福等单位共同完成,第一作者陈杨是浙江大学硕士生,通讯作者为上海人工智能实验室沈宇帆、石博天。 引言多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对 AI 自动化前端开发充满期待。 然而,一个网页的真正价值远不止于其静态布局。

IWR-Bench由上海人工智能实验室联合浙大、2077AI、港中文、斯坦福等单位共同完成,第一作者陈杨是浙江大学硕士生,通讯作者为上海人工智能实验室沈宇帆、石博天。

引言

多模态大模型在根据静态截图生成网页代码(Image-to-Code)方面已展现出不俗能力,这让许多人对 AI 自动化前端开发充满期待。

然而,一个网页的真正价值远不止于其静态布局。用户的点击、筛选、表单提交,乃至游戏中的每一步操作,都构成了其核心的交互功能。这些动态、有状态的交互逻辑,恰恰是传统静态评测无法触及的盲区。

为了填补这一关键空白,上海人工智能实验室联合浙江大学等机构的研究者,提出了 IWR-Bench——一个旨在更真实地评估 LVLM 交互式网页重建能力的评测基准。

IWR-Bench 的核心转变在于,它不再提供静态截图,而是要求模型观看一段记录了完整用户操作流程的视频,并结合网页所需的全部静态资源(如图片、图标、子视频等),去理解并复现整个页面的动态行为。任务的复杂性跨度很大,从简单的浏览功能,到需要逆向工程游戏规则的 2048、订机票等应用。

这项任务的难度远超预期。在对 28 个主流模型的全面测试中,即便是表现最好的模型GPT-5,其综合得分也仅有 36.35分。这一结果清晰地指出了当前模型的核心短板,IWR-Bench 不仅为领域提供了一个更具挑战性的新目标,也为未来的研究指明了方向。

论文

首个video2code基准IWR-Bench发布:让模型“看视频写网页”,SOTA仅36.35分

论文标题:IWR-Bench: Can LVLMs reconstruct interactive webpage from a user interaction video?

论文链接:  https://arxiv.org/abs/2509.24709

代码地址:  https://github.com/L-O-I/IWR-Bench

数据地址:  https://huggingface.co/datasets/IWR-Bench/IWR-Bench

核心亮点

•首个视频输入的交互网页重建评测:从“image-to-code”迈向“video-to-code”,对网页事件驱动逻辑的生成提出刚性要求

•真实场景、完整资源:113个网站任务、1001次交互动作;提供全部静态资源并匿名化命名,逼近真实开发

•自动化Agent-as-a-Judge:用编程代理复现动作轨迹,双重评分同时评估功能正确性(IFS)与视觉保真度(VFS)

•28个LVLM系统测评:最佳模型总分36.35%,IFS仅24.39%、VFS为64.25%;通用多模态模型显著优于“视频专长”模型

首个video2code基准IWR-Bench发布:让模型“看视频写网页”,SOTA仅36.35分

图1: 10个代表性模型在IWR-Bench任务上的评测总览

任务介绍:

现有的网页代码生成基准(如Design2Code、WebSight)主要聚焦于静态截图转代码(image2code),而IWR-Bench则专注于动态视频转可交互网页代码(video2code):

传统任务: 给AI一张网页截图 → 生成HTML/CSS代码 

IWR任务: 给AI一段用户操作视频 + 网页静态资源 → 生成包含完整交互逻辑的代码

值得一提的是,每个任务都提供了完整的静态资源(图片、图标、视频等),并且所有文件名都经过匿名化处理(如logo.png → asset_001.png),迫使模型必须依靠视觉匹配而非语义推理。静态资源的引入,也为直接基于渲染结果而非HTML代码进行评测提供了关键帮助

首个video2code基准IWR-Bench发布:让模型“看视频写网页”,SOTA仅36.35分

图2: IWR-Bench任务和评测总览,模型输入包括(a)用户交互视频,(b)爬取的静态资源的缩略图与文件路径,要求模型输出html代码。评测时,通过agent在浏览器上基于(c)标注的操作轨迹进行操作,以实现基于检查点的自动化评分

•对模型的三大核心挑战:

a.多模态理解:从视频帧精准捕捉布局、文本与组件状态

b.多模态推理:在时间序列中推断交互逻辑与因果关系,并将视频元素与静态资源可靠匹配与绑定

c.高级代码生成:将推断出的状态机与事件逻辑实现为可运行的前端代码

首个video2code基准IWR-Bench发布:让模型“看视频写网页”,SOTA仅36.35分

图3: IWR-Bench的任务分类,从领域、视觉复杂度、交互逻辑复杂度三个维度进行了分类,覆盖全面的真实世界网页任务。

•任务规模与覆盖:

○113个来自真实网站的任务,分辨率覆盖桌面与移动端(19种,移动占10.62%)

○共1001个交互动作,平均每任务8.9步;其中620个视觉检查点、403个逻辑断言

○复杂任务包含2048、扫雷等完整游戏逻辑与GUI重建

评测框架和指标

IWR-Bench采用了一套严格的自动化评测协议,通过编程代理(基于browser-use库)来模拟真实用户的网页操作:

•评测流程:

a.操作执行:代理按照预定义的动作序列操作生成的网页

b.功能验证:检查每个操作是否能正确执行,以及逻辑断言是否满足

c.视觉对比:在关键检查点截图,与参考页面进行多维度对比

•双重评分体系

○交互功能分数(IFS):衡量功能正确性

▪计算成功完成的操作占总操作数的比例, 操作失败包括浏览器执行失败、逻辑断言失败

▪顶级模型GPT-5的IFS仅为24.39%

○视觉保真度分数(VFS):衡量视觉还原度

▪结合低级特征(OCR文本相似度、DINO结构相似度)

▪融合高级评估(由Gemini-2.5-Pro进行整体评判)

▪顶级模型GPT-5的VFS为64.25%

评测结果

首个video2code基准IWR-Bench发布:让模型“看视频写网页”,SOTA仅36.35分

图4: IWR-Bench在28个模型上的评测结果

关键发现

•功能实现是最大瓶颈

○所有模型的VFS都显著高于IFS,这揭示了一个核心问题:

○模型能够较好地复现静态视觉效果,但在生成事件驱动逻辑方面严重不足。

○例如,GPT-5能够达到64.25%的视觉保真度,但功能正确性仅为24.39%——这意味着即使页面"看起来对",实际操作时有75%以上的功能无法正常工作。

•thinking版本带来部分提升

"thinking"版本模型普遍表现更好:

○Claude-Sonnet-4      (thinking) vs. 普通版:34.62 vs. 34.00

○Claude-Opus-4      (thinking) vs. 普通版:34.13 vs. 33.33

○Gemini-2.5-Pro      (thinking) vs. 普通版:30.36 vs. 30.31

但提升幅度有限,说明基础模型能力仍是决定性因素。

•现在的专有视频理解模型效果不如通用多模态模型

○令人意外的是,专门针对视频理解训练的模型(如VideoLLaMA3、InternVideo)表现垫底,而通用的多模态大模型表现更优。这表明,该任务与传统的视频理解任务具有显著的差异性。

结语

IWR-Bench的推出,标志着AI从"看懂静态网页"到"理解动态交互"的关键一步。36分的成绩告诉我们:这条路还很长。这不仅是对AI多模态能力的一次全面体检,更是为多模态能力涌现指明了下一阶段的攻坚方向。

相关资讯

搞 AI,孩子必须学好数学:马斯克 Altman 罕见达成一致,LeCun / Jeff Dean 等 31 位大佬签署联名信

【新智元导读】基础数学已经被拔高到研究 AI 的必经之路!UC 伯克利教授发起最新倡议,31 位 AI 大佬共同签署联名信,马斯克和 Altman 竟达成一致。就在刚刚,UC 伯克利 EECS 教授 Jelani Nelson 联合发起了一个倡议,强调「坚实的数学基础对人工智能至关重要」。地址:「虽然 Elon Musk 和 Sam Altman 最近在很多问题上都有分歧,但他们都认同,AI 的构建是以代数和微积分等坚实的数学基础为支撑的。」目前,已经有 31 位业内大佬在上面签署了自己的名字。要想搞好 AI,就必
3/7/2024 9:56:48 PM
清源

NeurIPS 2024 Workshop 科学基础模型: 进展, 机遇, 挑战

Workshop背景人工智能 (AI) 和机器学习 (ML) 在科学领域的应用代表了传统科学发现方法的重大转变。几个世纪以来,探索自然世界的过程遵循着系统和逻辑的方法。然而,人工智能和机器学习技术的出现,正在深刻改变现代基础科学的发现方式。这种变化对于促进跨学科交流、激发创新的解决方案,并最终提高科学界应对现代科学中最紧迫和复杂问题的能力至关重要。与此同时,经过大量多样化数据集训练的基础模型,在计算机视觉和自然语言处理等任务中展示了强大的适应性。这些模型,例如语言模型 GPT-4 和图像文本处理模型 CLIP,通过
7/20/2024 3:30:00 PM
新闻助手

AI加速优化求解,达摩院连续两年获求解器全国赛事冠军

以“AI 优化求解器”助力能源绿色转型,达摩院自研“敏迭”求解器连续获得权威赛事冠军。 1月17日消息,达摩院自主研发的“敏迭”求解器在工信部产业发展促进中心组织的第二届能源电子产业创新大赛上,再次斩获“国产求解器技术专题赛”冠军。 这是继近期入选工信部“人工智能赋能新型工业化”典型应用案例后的又一殊荣。
1/21/2025 10:12:00 AM
新闻助手
  • 1