AIOps 大模型：后训练 · 评估 · 基准生成

把通用大模型改造成真正能用的 AIOps 专家，不是一次微调就能交差的事：先要有一套后训练方法论，把模型的能力向告警理解、根因推断、工具调用等运维场景靠拢；训完还得回答「它到底行不行」，需要一套可量化、可复现的评估框架；评估要有规模化、场景化的测试素材，又得解决「题从哪儿来」——这又落回大模型本身，用 prompt 工程做基准用例自动生成。本目录把这条 训练 → 评估 → 基准生成 的完整闭环整理成三份互相咬合的设计文档。

1. 文档与阅读顺序

按「先学怎么训、再学怎么评、最后学怎么造题」的顺序阅读，能形成完整的工程视角。

1.1 后训练方法论

AIOps 后训练技术解析 — 从基座模型选型（结合 MMLU / C-Eval 等通用 benchmark）切入，系统阐述 SFT、偏好对齐、工具调用训练等后训练手段如何把通用模型改造成 AIOps 专家；重点拆解运维环境理解、因果推断 / 故障定位、工具调用等 7 大核心能力 的训练路径与数据策略。

1.2 能力评估框架

Kubernetes AIOps 大模型能力评估框架 — 采用「知识验证 · 推理评估 · 场景测试」三位一体方法论，围绕 7 个能力维度（控制平面诊断、Pod 与容器故障诊断、节点级组件诊断、网络组件诊断、存储组件诊断、自动化运维与工具调用、安全与合规）建立指标体系；同时给出基准任务设计范式，覆盖 YAML 配置、kubectl describe 输出、容器日志等典型输入素材。

1.3 基准测试生成流水线

Kubernetes AIOps 基准测试生成框架 — 以 GPT-5 / DeepSeek 等高能力模型为生成器，通过 系统 · 角色 · 任务 · 输出格式 · 质量要求 五层提示工程，把上游评估标准编码成可复用的 prompt 模板，规模化产出覆盖 7 个维度的高质量测试用例；内置多层验证闭环，解决生成内容的真实性、一致性与多样性问题。

2. 三份文档如何彼此咬合

后训练 → 评估：后训练文档里定义的「7 大核心能力」（运维环境理解、因果推断、工具调用等）是模型能力的目标维度，评估框架则从 Kubernetes 组件视角（控制平面、Pod、节点、网络、存储、自动化运维、安全合规）建立「7 个能力维度」，两者从不同角度共同覆盖「训什么」与「评什么」的对齐。
评估 → 基准生成：基准生成框架把评估框架的指标与任务模板编码为 prompt 生成规则，用大模型自身产出符合评估标准的测试用例，解决「人工出题不可规模化」的瓶颈。
基准生成 → 后训练回流：生成的基准既用于评估，也可作为难例反哺到后续 SFT / 偏好对齐的数据集，形成训练—评估—数据—再训练的正向循环。

3. 适用场景

组建内部 AIOps 大模型团队，规划从基座选型到上线评测的完整路线图。
在已有大模型之上做 Kubernetes 运维方向的领域适配，需要落地化的能力清单与评测尺度。
构建模型对比 / 选型试验，需要自动化、可扩展的基准测试集生成工具链。