DevOps-Eval：蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准！

1. 背景大语言模型在各类NLP下游任务上取得了显著进展。然而在DevOps规模，由于缺乏专门用于大型语言模型的评测基准，在有效评估和比较该规模大语言模型的能力方面存在严重不足。为弥补这一不足，蚂蚁集团联合北京大学发布了首个面向DevOps规模的大模型评测基准DevOps-Eval，以帮助开发者跟踪DevOps规模大模型的进展，并了解各个DevOps规模大模型的优势与不足。DevOps-Eval根据DevOps全过程进行划分，包孕计划、编码、构建、测试、发布、部署、运维和监控这8个类型，包孕4850道选择题。此外，

1. 背景

大语言模型在各类NLP下游任务上取得了显著进展。然而在DevOps规模，由于缺乏专门用于大型语言模型的评测基准，在有效评估和比较该规模大语言模型的能力方面存在严重不足。为弥补这一不足，蚂蚁集团联合北京大学发布了首个面向DevOps规模的大模型评测基准DevOps-Eval，以帮助开发者跟踪DevOps规模大模型的进展，并了解各个DevOps规模大模型的优势与不足。

DevOps-Eval根据DevOps全过程进行划分，包孕计划、编码、构建、测试、发布、部署、运维和监控这8个类型，包孕4850道选择题。此外，DevOps-Eval还特别对运维/监控类型做了细分，添加日记剖析、时序异常检测、时序分类和根因分析等常见的AIOps任务。由于DevOps-Eval根据场景对评测样本做了详尽的细分，因此除了DevOps规模大模型，也方便对特定规模大模型进行评测，如AIOps规模等。

目前，我们已发布了第一期的评测榜单，首批评测大模型包孕OpsGpt、Qwen、Baichuan、Internlm等开源大语言模型；同时，DevOps-Eval相关论文也在紧锣密鼓地撰写中。我们欢迎相关从业者一起来共建DevOps-Eval项目，持续丰富DevOps规模评测标题问题或大模型，我们也会定期更新题库和评测榜单。

GitHub地址：https://github.com/codefuse-ai/codefuse-devops-evalHuggingFace地址：https://huggingface.co/datasets/codefuse-admin/devopseval-exam

2. 评测数据

2.1. 数据来源

DevOps-Eval最终生成的样本样子都为单项选择题，采用此类样子的原因是单项选择题客观性高，不但能够提高样本收集效率，并且方便进行自动化评测。因此，我们收集样本的策略是尽可能获得选择题原题，或者通过某些手段生成或转换为选择题。经过统计，该项目的数据来源可以分为以下5大类：

1)选择题类试题：直接为选择题形式的公开试题，例如计算机通识类考试试题、DevOps专业考试试题等；

2)问答类试题：此类试题以问答题的形式出现，且已按照DevOps场景进行了有效划分，来源如超级码客、devops-exercises等，我们再在问答题基础上通过ChatGPT生成答案并转换为选择题；

3)开源数据集：基于开源数据集构造AIOps相关样本，例如基于LOGPAI的数据构造日记剖析相关的选择题样本，基于TraceRCA的数据构造根因分析相关选择题样本；

4)ChatGPT生成：某些细分场景缺乏现成的试题，我们使用场景关键词通过ChatGPT直接生成相应的选择题；

5)数据仿真生成：通过数据仿真的手段生成数据，例如时序异常检测、时序分类等试题。

2.2. 数据类型

DevOps-Eval根据DevOps全过程进行划分，共分为8个大类和53个子类，包孕4850道选择题。其中，AIOps场景有4个，共计2200个中英文标题问题。每个子类分为dev数据集和test数据集。其中，dev数据集包孕5个带有标签和剖析的样例，用于few-shot评测；test数据集仅包孕标签，用于模型评测。图2.1给出了DevOps-Eval数据的具体细分类型。若要进一步了解各个类型包孕的具体内容，可以参考Github中更为详细的样本明细脑图。

DevOps-Eval：蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准！

图2.1 数据细分类型

2.3. 数据样例

2.3.1. DevOps

以下样本来自于CODE大类下的versionControl子类，主要考察git相关知识，具体样子如下表所示。

DevOps-Eval：蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准！

2.3.2. AIOps

DevOps-Eval：蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准！

上述日记剖析样例为给定日记给出具体模版，此外还有给定日记给出模版个数，给定日记模版判断哪些日记由给定模版生成。此外限于篇幅，此处不再展示时序分类和根因分析样例，具体可以查看HuggingFace数据集。

2.4. 数据下载

方法一：直接下载（也可以用浏览器打开下面的链接）

wget https://huggingface.co/datasets/codefuse-admin/devopseval-exam/resolve/main/devopseval-exam.zip

# 然后可以使用 pandas加载数据：

import os

File_Dir=”devopseval-exam”

test_df=pd.read_csv(os.path.join(File_Dir,”test”,”UnitTesting.csv”))

方法二：使用Hugging Face datasets库函数

from datasets import load_dataset

dataset=load_dataset(r”DevOps-Eval/devopseval-exam”,name=”UnitTesting”)

print(dataset[‘val’][0])

3. 评测设置

3.1. 评测模型

一期我们选取了比较热门的不同参数大小、不同机构发布的通用大模型和运维规模大模型，具体细节如下表。后续我们也会评测更多其他的大模型。

DevOps-Eval：蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准！

3.2. 评测方式

DevOps-Eval包孕0-shot和Few-shot两种评测方式。其中针对DevOps标题问题，我们主要评测0-shot和5-shot的结果。而针对AIOps标题问题，由于标题问题的token长度较长（如上面展示的日记剖析样例，包孕多行日记），5-shot后的题干长度会超过2k个token。而大部分模型的训练的上下文就是2k，所以针对AIOps的标题问题，我们主要评测0-shot和1-shot的结果。

Base模型和Chat模型获取预测结果的方式如下：

1)Base模型：我们将问题输入大模型后，基于模型预测下一个Token的得分，获得分别对应A，B，C，D四个选项的得分，将得分最高的选项作为模型对于这道题预测结果；

2)Chat模型：我们先将问题转换为Chat模型对齐训练时使用的prompt，比如Qwen采用的是chatml的样子，Baichuan2是一种自定义的样子，采用模型对齐训练的样子能够使得模型更好地发挥其能力。当转换好后输入大模型，然后用和Base模型相同的方式获取预测结果。

4. 评测结果

4.1. 🏆 DevOps全过程评测榜单

4.1.1. 0-shot评测结果

如下图所示，0-shot评测结果中DevOpsPal-14B-Chat平均分最高，达到了80.34分，Internlm-7B-Base评分较低，为66.91分。从总体上来看，各模型的分数区分度不大。

DevOps-Eval：蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准！

4.1.2. 5-shot评测结果

如下图所示，5-shot的结果要稍好于0-shot，其中DevOpsPal-14B-Chat平均分依然最高，达到了81.77分，Internlm-7B-Base评分较低，为69.17分。从总体上来看，各模型的分数区分度也并不大，说明样本集难度偏低，后期需要区分下样本难度等级。

DevOps-Eval：蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准！

4.2. 🔥 AIOps场景评测榜单

4.2.1. 0-shot评测结果

从0-shot结果来看Qwen-14B-Base平均分最高，达到了49.27分，Internlm-7B—Chat评分较低，为32.0分。从总体上来看，各模型在AIOps类型的区分度明显变大。

DevOps-Eval：蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准！

4.2.2. 1-shot评测结果

1-shot的结果要稍好于0-shot，其中DevOpsPal-14B—Chat平均分最高，达到了53.91分，Internlm-7B—Chat依然评分较低，为32.73分。在不同细分类型的表现，根因分析得分相对较高，可能跟根因分析标题问题做了简化相对较为简单有关，而时序异常检测整体表现都不太好，当前大模型对时序类数据的处理依然有待提升。

DevOps-Eval：蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准！

5. 未来展望

未来我们将持续对DevOps-Eval项目进行优化，主要优化方向包括以下几点：

1)不断丰富评测数据集：

当前DevOps全过程评测数据主要为中文，后续将增加英文标题问题；当前不同类型之间的数据量存在较大差异，需要持续补充数据集，平衡各类型的数据量；当前评测数据主要以知识类为主，后续将增加更多任务类标题问题，且题型将不局限于选择题，增加问答等形式；从DevOps全过程评测结果可以看出，当前评测模型之间得分差异较小，说明当前DevOps全过程的评测数据难度的区分度一般，需要对数据集增加难度分级；

2)重点关注AIOps规模：

AIOps一直是运维规模的研究热点，大模型与AIOps能碰撞出什么火花也是当前行业内最关心的话题。目前DevOps-Eval已涵盖4类常见的AIOps任务，后续将继续增加，直至覆盖运维规模的所有智能化任务；

3)持续增加评测模型：

一期主要评测了一些主流的、规模不是很大的开源模型，后续将覆盖更多的模型，并重点跟踪评测面向DevOps和AIOps规模的大模型。

希望大家一起来共建DevOps-Eval，期待在大家的努力下，建立更准确、更全面的DevOps规模大模型评测体系，推动DevOps规模大模型技术的不断发展与创新。

6. 关于DevOpsGPT

DevOpsGPT是我们发起的一个针对DevOps规模大模型相关的开源项目，主要分为三个模块。本文介绍的DevOps-Eval是其中的评测模块，其目标是构建DevOps 规模LLM行业标准评测。此外，还有DevOps-Model、DevOps-ChatBot两个模块，分别为DevOps规模专属大模型和DevOps规模智能助手。我们的目标是在DevOps规模，包孕开发、测试、运维、监控等场景，真正地结合大模型来提升效率、成本节约。我们期望相关从业者一起贡献自己的才智，来让“天下没有难做的coder”，我们也会定期分享对于 LLM4DevOps 规模的经验&尝试。

欢迎使用&讨论&共建：

1)ChatBot – 开箱即用的 DevOps 智能助手：https://github.com/codefuse-ai/codefuse-chatbot

2)Eval – DevOps 规模 LLM 行业标准评测：https://github.com/codefuse-ai/codefuse-devops-eval

3)Model – DevOps 规模专属大模型：https://github.com/codefuse-ai/CodeFuse-DevOps-Model

{{userData.name}}已认证

DevOps-Eval：蚂蚁集团联合北京大学发布首个面向DevOps规模的大语言模型评测基准！

马斯克第二款AI产品PromptIDE公布，Grok的开发离不开它

北大具身智能团队提出需要驱动导航，对齐人类需要，让机器人更高效

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

研究：AI 医疗建议存巨大安全隐患，22% 的回答可能致死