写点什么

面向运维的大模型!中国信通院“智域”大模型开放下载,为系统“治未病、愈顽疾”!

  • 2025-08-21
    北京
  • 本文字数:1942 字

    阅读完需:约 6 分钟

大小:600.90K时长:03:25
面向运维的大模型!中国信通院“智域”大模型开放下载,为系统“治未病、愈顽疾”!

随着数字化转型加速深入与 AI 技术的广泛渗透,大模型正逐渐成为智能运维建设的重要基石。与此同时,面对大模型应用需求的日益迫切,如何有效收集、优化和使用企业现有运维数据,构建出适用于企业运维场景的专属大模型,仍是行业普遍面临的挑战。


在此背景下,中国信息通信研究院(以下简称中国信通院)依托“稳定性保障实验室”,联合蚂蚁、腾讯、移动云、福建移动、咪咕、华为云、百度、美图、小米、趣丸、速云、嘉为等单位,基于团队在 SRE 领域的研究基础,以 Qwen3-32B 模型作为基础模型,推出 SRE 领域大模型——智域,促进智能化运维建设,推动大模型赋能稳定性保障工作。

详解运维大模型“智域”

一、数据构建


1、数据采集


中国信通院筛选了以下 6 类数据作为“智域”模型训练的数据来源,如图 1 所示。同时依托“稳定性保障实验室”构建了适配每类数据的生产/收集、审核治理、筛选/增强工具管线,并持续更新训练数据。


1)领域公开知识:SRE 领域公开书籍、论文、行业报告、白皮书等, 如《SRE 实践白皮书》


2)人工运维经验:稳定性保障实验室 SRE 专家提供的高质量运维经验数据,主要面向故障诊断过程


3)通用组件文档:通用组件的使用、运维文档,以强化大模型对于组件(尤其是国产化组件)的使用和维护能力


4)真实故障案例:包含故障概要、业务背景、故障轨迹、根因分析、处置动作、优化方案 6 个内容版块的高质量故障数据


5)运维平台提取:企业运维平台提取的真实操作类数据,供大模型学习 SRE 的工作流程、工具使用规范


6)强化学习生成:构建 SRE 专项能力(如故障排查)的模拟环境,在环境中强化学习的过程中,生成高质量训练数据


图 1. “智域”训练数据分布图


2、数据生成


为提高大模型训练效率、加速模型收敛,“智域”采用差异化方式构建数据:针对重要的企业人工运维经验和真实故障案例数据,采用人工编写;对于领域公开知识、运维通用组件技术文档等,则借助大模型生成。最终将这些数据统一转化为 QA 问答对形式,形成约 60 亿词元(token)的 SRE 领域语料35 万条高质量运维领域问答对,两者后续将被分别用于增量预训练和模型微调。


3、数据清洗


为保证大模型训练数据的精准性、一致性与可靠性。“智域”采取了包含格式规范化、质量评级、数据审核、内容过滤、去重、一致性重写在内的多种数据清洗方式,通过构建困惑度、分布一致性等多维度数据分析指标,实现对数据有效性的量化分析,去除数据中无效及干扰内容,如图 2 所示。



图 2. “智域”数据预处理示意图


4、数据增强


为确保运维领域知识被充分学习,“智域” 会针对高质量数据开展数据增强:对于人工经验数据,依据质量标准划分为 A 到 D 四个等级,为质量较高的 A、B 两级数据增加权重;对于企业真实故障案例数据,则实施针对性增强处理(具体增强权重详见表 1)。


表 1. “智域”数据增强统计表

二、模型训练


模型训练基于 Qwen3 32B 模型,分为增量预训练、微调与强化学习后再训练共 3 个阶段。通过增量预训练与监督微调完成领域知识学习,通过微调与强化学习完成领域专业技能训练,最后通过强化学习 DPO 完成关键通用能力的提升,如图 3 所示。


图 3. “智域”模型训练流程图


1、模型预训练


为强化运维领域知识的落地效果、提升大模型对批量运维通用知识的吸收效率,“智域” 采用分层训练策略:针对领域公开知识、通用组件文档等基础内容,通过预训练环节实现知识前置注入;对于专家经验、运维实战案例、真实运维 SQL 等场景化数据,则通过领域核心知识与技能的定向微调,强化其场景化表达能力。


2、模型微调


SRE 工作对于信息确定性的高要求,“智域”对上下文推理能力、SRE 领域知识使用、运维 sql 生成能力做了专项优化。“智域”以 Search-R1 的“多轮迭代检索”为框架,通过 PPO 算法训练模型,使其在多轮 RAG 工具调用中能自主决策、动态优化检索行为;依托专家经验、运维实战案例、真实运维 SQL 等高质量运维数据,通过领域核心知识与技能的定向微调,强化模型运维专属能力。


在奖励计算上,“智域”同时使用了基于格式的奖励和基于最终结果正确性的奖励。经过以上训练过程,模型在抑制幻觉的拒答、自主多轮知识检索以及基于上下文知识的生成能力方面都有所提升。


3、强化学习后再训练


在模型训练过程中,我们观察到一个共性现象:无论是预训练阶段的增量学习,还是微调阶段的定向优化,对模型参数的调整均会导致其通用能力出现一定程度的衰减。为此,“智域” 在完成运维领域模型的转型训练后,专门开展了全面的通用能力评估,并针对性实施了二次增强方案。

三、部署指引


为推动运维大模型领域交流和发展,中国信通院正式公开发布运维大模型“智域”,大模型支持 NVIDIA VLLM 昇腾 VLLM 部署方式。目前大模型已上传至“魔搭”社区。


后续中国信通院将依托稳定性保障实验室持续开展“智域”大模型优化和更新工作,“智域”大模型最新版本也会持续发布,欢迎下载并使用。

2025-08-21 10:221
用户头像
李冬梅 加V:busulishang4668

发布了 1134 篇内容, 共 753.3 次阅读, 收获喜欢 1276 次。

关注

评论

发布
暂无评论

存储拆分后,如何解决唯一主键问题?

小小怪下士

Java 程序员 后端 uuid

从混沌到清晰,阿里全球商品类目域建设思考

阿里技术

全球化技术能力

要想随时编码即刻创新,这个工具你需要一个

华为云开发者联盟

云计算 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

基于图数据库 NebulaGraph 实现的欺诈检测方案及代码示例

NebulaGraph

图数据库 反欺诈 安全风控

openGauss内核分析(四):查询重写

Cadence Allegro如何通过Excel表格创建元器件?

华秋PCB

科普 硬件 元器件

C#/VB.NET 如何在 Word 文档中添加页眉和页脚

在下毛毛雨

C# .net word文档 页眉页脚

兴业银行正式加入openGauss社区

实用指南:如何在Anolis OS上轻松使用 Kata 安全容器?

OpenAnolis小助手

容器 安全 操作系统 龙蜥社区 kata

赛意信息荣获2022年深信服优秀ISV合作伙伴奖 强强联手赋能企业再升级

科技热闻

阿里云 EMAS & 魔笔 :1月产品动态

移动研发平台EMAS

阿里云 App 低代码 移动研发

【ECCV 2022】TeSTRa:稳定的流式视频识别

Zilliz

计算机视觉

一文详解SpEL表达式注入漏洞

华为云开发者联盟

开发 华为云 企业号 2 月 PK 榜 华为云开发者联盟

ChatGPT被开发者嫌弃?真正的用户群体出现

Onegun

人工智能 ChatGPT

妙啊,空结构体还能这么用?Go语言的结构体看这篇就够了

王中阳Go

Go golang 高效工作 学习方法

openGauss内核分析(五):统计信息与行数估计

数仓专家面对面 | 为什么我选择GaussDB(DWS)

华为云开发者联盟

数据库 后端 华为云 企业号 2 月 PK 榜 华为云开发者联盟

设计原则 — L 里氏替换原则

Lemoon Can

SOLID 设计原则 SOLID原则 里氏替换原则

GitHub神坛变动!10W字Spring Cloud Alibaba笔记,30W星标登顶第一

Java 微服务 Spring Cloud

行业大咖云集 多元观点碰撞 OpenHarmony技术峰会与你相约深圳

叶落便知秋

OpenHarmony

SpringBoot与Loki的那些事

Java Spring Boot 框架

openGauss社区十一月运作报告

提升企业管理效率 从权限控制开始

力软低代码开发平台

AI不仅造就了ChatGPT,也重新定义了模糊测试

云起无垠

模糊测试

【漏洞发现】|多个严重CVE漏洞被发现,系内存类安全漏洞

云起无垠

漏洞 Fuzzing

Java实现Http多次请求复用同一连接

Java HTTP

万物皆可集成资源包!低代码集成系列一网打尽

葡萄城技术团队

【我和openGauss的故事】openGauss的WDR报告解读

云小课|MRS基础原理之Flink组件介绍

华为云开发者联盟

大数据 华为云 企业号 2 月 PK 榜 华为云开发者联盟

如何使用 NFTScan NFT API 检索单个 NFT 资产

NFT Research

API NFT

国内开源生态发展现状:开源基金会与开源组织 | 雨林开源行

开源雨林

Linux 开源 基金会 OSPO

面向运维的大模型!中国信通院“智域”大模型开放下载,为系统“治未病、愈顽疾”!_生成式 AI_信通院_InfoQ精选文章