🚀 AI Infrastructure Knowledge Base

AI Fundamentals

完整的人工智能基础设施知识体系

覆盖从 GPU 硬件架构、CUDA 并行编程,到大模型训练、推理优化、RAG、 Agent 系统的全链路技术栈,来自一线工程师的实践总结。

15 内容模块
800+ 技术文章
5 专业课程
持续 追踪更新

核心知识体系

系统化 AI 技术体系,从芯片底层到智能应用,深入每个技术层次

Module 01
硬件架构

深入理解 AI 训练与推理的硬件基础,GPU/TPU 内部架构、片内互联、PCIe 拓扑与 GPUDirect。

GPUTPUNVLinkPCIe
🔧
Module 02
异构编程 (GPU & DPU & NPU)

从 CUDA 基础到高性能 Kernel 编写,掌握 GPU 并行计算与调优;包含 DOCA 基础,探索 DPU 数据面编程与网络卸载;以及昇腾 NPU 开发实践,涵盖 CANN 软件栈、PyTorch/MindSpore 迁移与 Ascend C 算子。

CUDATritonDOCADPUAscendCANN
🖧
Module 03
AI 集群运维

大规模 AI 集群的构建、高速网络配置与运维管理,保障分布式训练任务的稳定高效运行。

InfiniBandNCCLGPU Ops
☁️
Module 04
云原生 AI 平台

基于 Kubernetes 的企业级 AI 基础设施,GPU 虚拟化、弹性调度、HAMi/KAI 资源管理实践。

KubernetesHAMiGPU 虚拟化
🎯
Module 05
模型训练与微调

大模型全流程训练、SFT 指令微调、LoRA/QLoRA 方法与 AI Ops 工程最佳实践总结。

SFTLoRAAI Ops
🧠
Module 06
LLM 理论与基础

大语言模型核心理论:模型量化、MoE 稀疏架构、Embedding 原理与 Deep Research 方法论。

量化MoEEmbedding
🔍
Module 07
RAG 与工具

检索增强生成(RAG)系统全链路设计,知识图谱与 LLM 协同、GraphRAG 与文档解析工具。

RAG知识图谱GraphRAG
🤖
Module 08
智能体系统

AI Agent 设计模式、多智能体协作架构、MCP 协议解析与 Agent 长期记忆机制实现。

Agent多智能体MCP
⚙️
Module 09
推理系统

高性能 LLM 推理工程:vLLM 源码深度解析、KV Cache 压缩优化与 DeepSeek 推理实践。

vLLMKV CacheDeepSeek

系统化课程

从入门到精通的体系化视频课程、讲稿与全栈实战演练

动手实践与工具扩展

结合实际业务场景的编程指南、智能体技能与高效工具集合