引言
2023年初ChatGPT以其惊人的自然语言理解和生成能力席卷全球,重新定义了人机交互。在金融科技领域,G行敏锐地捕捉到这一趋势,开始了智能运维机器人的深度探索。2025年初DeepSeek等国产大模型的成熟,其轻量化架构、开放的生态以及优异的性能表现,让原本复杂的模型部署变得简单,这也加速了G行专属智能运维机器人的落地实践。
G行智能运维机器人贯穿运维事前巡检、事中应急、事后分析等全流程,同时整合行内通用知识,通过自然语言解析、大模型、检索增强等技术,实现海量数据精准关联分析与知识检索、隐性知识快速挖掘,运维人员通过简单的交互问答就能得到精准的知识答案,实现了对传统运维模式的升级。本文主要从建设背景、建设路径、应用场景、思考与挑战等方面介绍。
一、建设背景
随着企业IT系统复杂度指数级增长,全局性风险管控的难度增加。通过内部调研沟通后发现运维面临多重困难。
- 运维工具系统比较多,系统之间缺乏联动性,内容整合困难。运维人员需频繁登录不同领域系统(如监控、配置、日志系统)手动过滤、关联数据,导致数据获取效率低下。
- 专业门槛与知识传递难,事件处置依赖运维人员的专业经验,而隐性知识(如专家经验、非常规操作技巧)难以系统化传递,新人上手慢,资深人员压力大。
- 海量运维信息检索难,故障与原因的关联往往藏在海量信息背后,缺乏高效的整合与关联分析手段,导致事件定位滞后、决策依据不足。
通过对当下智能运维机器人技术的调研及应用场景研究,智能运维机器人在以下4个方面提升运维管理和事件处置的效率。
- 提升运维工具内数据获取效率。通过机器人的对话入口以及多agent模式打破运维工具系统的数据壁垒,实现一个对话入口获取多个运维领域数据综合分析,提升运维数据获取效率。
- 提高各领域数据准确性。通过各个智能agent精确获取到各个领域的核心运维知识,通过智能算法对各领域数据进行分析,得到客观和准确的分析数据。
- 提高事件处置决策效率。通过NLP、大模型等智能技术的语言理解和总结能力,实现对于用户问题的快速分解和agent的自动调用,并对各个agent的结果进行归纳总结,从而在事件处置中对决策者提供更加可靠的数据。
- 提升运维知识检索效率。使用大模型及RAG技术可以对运维的各领域数据如制度文件、操作手册、应急预案、汇报材料以及IT服务数据等进行知识库管理和检索,实现用户问题的精准问答。
二、技术路线
G行智能运维机器人主要包括三大核心技术路线,构建了基于智能化的系统整体技术分层架构,实现了智能运维机器人整体规划设计;利用基于Multi-Agent的检索架构设计,奠定了智能运维机器人的核心检索技术;通过分布式的功能模块策略设计,实现了系统研发和部署的基本框架,保障了技术方案的落地。
基于智能化的技术分层架构
如图1,在智能运维机器人技术分层架构的设计方面,G行根据需求设计以及现有的大模型等智能化技术能力,设计了从接入层、解析层、调度层、总结层、反馈层、模型层、存储层的七层技术架构,并从结构、功能和技术三方面对核心的产品功能和使用技术进行了规划和设计。其中大模型技术的应用贯穿整个技术架构,并发挥着举足轻重的作用。例如,在接入层需要使用多模态大模型对用户的文字、语音、图片、文本等内容进行解析;在解析层的语义修正环节,需要使用大模型对用户的提问进行错别字纠正和基于历史问答的语义修正等,从而保证后续的调度、检索和总结更加准确;在调度层环节则使用大模型来进行场景识别,以及各个agent的调度;在总结层则使用大模型对多个agent的检索结构进行总结,并使用多种模态的方式形成答案;在反馈层则使用大模型对用户的点赞、点踩等反馈信息进行强化学习、提示层优化等模型的优化;模型层则会根据不同环节和同agent对于模型的需求,采用基础大模型和领域小模型相结合的方式。
图1 技术分层架构图
基于Multi-Agent检索架构设计
如图2所示,智能运维机器人总体架构设计采用Multi-Agent的设计模式,用户的问题通过语义理解agent进行总体调度,触发多个场景agent获取领域数据并分析计算出初步答案,最终再经过语义生成大模型对数据进行统一加工输出。其中agent总共分为三层。
图2 检索架构设计图
第一层agent为语义理解agent,主要功能是对用户的问题进行理解、重写、分类等以及对后续场景进行总调度。
第二层agent分为实时分析场景agent、行内知识问答agent、通用大模型agent。实时分析场景agent主要实时调度各种运维生产数据进行场景分析;行内知识问答agent主要根据我行的知识库(领域web知识、本地制度手册、专家经验知识)进行知识问答;通用大模型agent主要使用模型底座基础知识实现通用知识问答、代码编写、逻辑运算、文字翻译等通用大模型功能。
第三层agent主要集中在实时分析agent里面用于调度各个生产数据的agent,其中主要有配置查询agent、交易分析agent、日志分析agent、报警分析agent、批量分析agent、容量分析agent、流程分析agent等。各个agent分别通过api的方式调用各运维工具系统。
基于分布式策略的功能模块设计
如图3所示,智能运维机器人内部功能模块分为5个管理中心,22个功能模块。
- 通讯中心是智能运维机器人的通讯底座。核心功能就是围绕以我行专有的内部通讯平台“光大通”为入口的通讯管理,利用光大通高并发、高安全度、高开放的特点,为智能运维机器人提供便捷的消息通讯功能。
- 对话中心是智能运维机器人的总调度中心,主要负责对话内容的解析、理解、分类、存储以及结果的输出等。
- 模型中心是智能运维机器人的模型底座,其中不仅包括了用于调度实时分析场景的各个agent模型,也包括了用于知识库问答的问答大模型,同时还有语义理解大模型和语义生成大模型等。从算法角度看,模型中心不仅有基于传统机器学习和深度学习的场景模型,还有基于Transformer的多模态大模型。
- 配置中心是智能运维机器人的后台管理中心。主要目标是对用户问答内容的预配置,以及环境配置管理。
- 监控中心是智能运维机器人的安全保障。其中除了对于各个通讯服务和agent模型的健康度检查,还有用户问答反馈到大模型的自回馈机制。
这五个中心共同组成了智能运维机器人的整个内部服务框架,各个中心通过开发协议相互独立并相互配合。
图3 功能模块设计图
三、应用场景及效果
G行智能运维机器人贯穿运维全流程,在事前主要是日常巡检工作,包括交易业务指标、CUP和内存等性能指标的趋势分析,容量指标、报警信息、异常检测信息的查询等,还有对日常行为的合规检查,保证日常操作和流程的符合行内制度要求和满足监管要求,以及变更风险评估等;在事中主要是事件的快速定位和解决问题,需要快速的获取应用系统的交易、性能、日志、报警信息等各项内容,然后整合分析,进行问题定位,并出具合适的解决方案进行问题修复;在事后主要对事件进行复盘,包括事件描述、影响分析、处置操作、后续优化工作等内容。
如图4,通过汇总整合用户需求,同时结合智能运维机器人的能力,把用户需求场景设计为运维巡检报告、运维异常分析、运维事件处置、运维信息查询4个运维应用场景,并结合知识问答、日常聊天、生活工具共7大场景。
图4 应用场景设计图
下面将在运维信息查询、巡检报告生成、异常分析、行内知识问答四个方面对典型场景举例展示实现效果。
运维信息查询
在整个运维过程中,查询类场景贯彻整个环节,主要分为三类:
- 状态类信息查询:应用系统交易状态、系统资源使用状态、系统端口运行状态、批量运行状态、变更详情等;
- 配置类信息查询:管理角色配置信息、系统硬件配置信息、系统软件配置信息;
- 告警类信息查询:告警信息查询、关联系统告警、历史告警对比。
这些信息分布在不同的系统中,如配置管理系统、批量管理系统、容量管理系统等,当前用户需要登录不同的系统进行操作和查询,智能运维机器人则可以通过统一的入口直接查询,效果案例见图5。
图5 运维信息查询效果图
巡检报告生成
用户会定期或者随时对系统整体状态、日常巡检内容、特定的运维信息等生成一些报告,用于系统巡检、事件分析、监管报送等,这些报告主要有系统交易分析报告、系统巡检日报、容量周报、SDP分析报告、变更风险评估报告等。
这些报告的生成以往需要登录不同系统,输入不同的参数信息进行查询、生成,现在用户可以通过智能运维机器人输入一句描述,后台就能够解析获取到参数去查询、生成报告。根据交易数据生成的业务影响分析报告如图6。
图6 业务影响分析报告
异常分析
在系统发生异常前后,往往需要对交易、性能、日志、链路等内容进行异常预测、实时判断、分析定位等。具体的场景有某系统某时间的交易异常分析和定位、高斯平台离群节点检测和根因分析、日志错误关键字分析、故障的关联报警等。智能运维机器人可以获取不同专业领域的异常分析数据,从而加快异常判断和定位。
例如,在异常交易分析方面,如图7,智能运维机器人可以解析用户问题中系统名称、时间范围等信息,后台通过agent自动查询并分析系统在时间区间的交易异常情况。
图7 异常交易分析
在告警分析方面,如图8,智能运维机器人中的AI告警分析智能体,可以实时监测告警信息,并自动调度交易、变更、日志、配置等agent,并通过大模型的思维链为故障排查提供AI建议。
图8 AI告警分析智能体
行内知识问答
运维中往往都会形成自己的知识库,其内容包括运维制度、知识库、专家经验等,用户在日常工作中会进行查询。智能运维机器人可以将专家脑海里的知识、我行专业文档里的知识录入到知识库管理系统中,然后再通过知识问答模型进行训练学习,最终通过智能运维机器人为用户提供便捷、专业的知识问答。场景效果如图9。
图9 行内知识问答场景
四、风险问题及应对措施
智能运维机器人是利用大模型的底座,结合行内的知识库、生产数据为用户提供运维领域的各种问答服务。在风险方面主要集中在查询权限风险、数据集风险、大模型解释性风险和开源软件漏洞风险四个方面。在各个风险方面,在机器人建设的前期会从大模型的选型、权限的控制、大模型的应用场景、以及软件评估方面控制风险。
1、查询权限风险
查询权限风险主要是指智能运维机器人的应用场景数据主要来自于行内的生产数据以及专业文档,在智能运维机器人使用过程中容易发生不同用户检索到非自我权限范围内信息的情况。在应对方面,智能运维机器人主要利用资源端的用户权限进行数据控制,同时在智能运维机器人的推广方面前期应主要集中在行员以及主要的行内通讯群。
2、数据集风险
数据集风险主要指基础开源大模型的原始训练数据,目前开源的大模型均采用互联网中公开的数据集进行训练,如维基百科、百度百科、新闻网站等,这些数据通过模型训练后可能会出现宗教、政治、性别等歧视风险。在应对方面,可以从以下四方面进行。
1)大模型选型方面,选择在国内可靠的大模型如DeepSeek等,这些大模型的训练数据集多来自于国内权威网站并在国内多个同业及政府部门引入使用。
2)数据集审核。对大模型的底座数据进行预审、检查和排除不合规性数据。
3)大模型安全测试。使用大模型评测软件进行大模型算法偏见等方面的安全测试。
4)机器人输出的风险过滤。在智能运维机器人的问答返回前面加一个“风险拦截器”,对机器人输出的内容进行安全检测。
3、大模型解释性风险
大模型解释性风险是指大模型是一个具有多层神经网络的深度学习模型,由于其网络层和参数量非常大,故模型的训练过程很难进行追踪和解释,因此就具有可解释、可控性风险。从风险控制方面可以从两方面入手。
1)限制基础大语言模型(LLM)的应用主要应用于我行运维任务上,采用多agent的模型对我行的专有数据进行训练形成一个个“专有任务大模型”,可以进行分散风险。
2)各领域专家提供数据和模型校验功能让模型更准确。在大模型选训练和应用方面主要采用专家提供的数据和样例进行模型训练,并采用强化反馈(RLHF)的方式让智能运维机器人更加专业化和持续学习能力。
4、开源软件漏洞风险
开源软件漏洞风险是指智能运维机器人会用到包括大模型等多个人工智能开源技术,这些开源软件在行内应用将面临开源软件引入的各种风险。从风险控制上一方面让行内风险管理和开源软件管理的专业人士进行评估并做积极引入,另一方面要经常关注开源软件的各种版本和漏洞发布情况,及时进行漏洞修复和版本升级。
五、总结
本文智能运维机器人的探索实践是基于我行运维算法实验平台进行自主研发的,建设过程中涉及NLP、Transformer、大模型等算法模型,是一款以我行即时通讯平台为交互入口、以智能运维为业务场景、完全自主研发的智能化运维产品。
未来,随着大模型能力的迭代与场景的深化,智能运维机器人将在变更风险分析、AI告警分析、故障决策推荐、预测性维护等领域发挥更大价值,为银行业务连续性与安全运营提供更强支撑,助力运维质效提升。