🚀 AI Infrastructure Knowledge Base

AI Fundamentals

完整的人工智能基础设施知识体系

覆盖从 GPU 硬件架构、CUDA 并行编程,到大模型训练、推理优化、RAG、 Agent 系统的全链路技术栈,来自一线工程师的实践总结。

12 知识模块
800+ 技术文章
5 专业课程
持续 追踪更新

知识模块

系统化 AI 技术体系,从芯片底层到智能应用,深入每个技术层次

Module 01
硬件架构

深入理解 AI 训练与推理的硬件基础,GPU/TPU 内部架构、片内互联、PCIe 拓扑与 GPUDirect。

GPUTPUNVLinkPCIe
🔧
Module 02
GPU 编程

从 CUDA 基础到高性能 Kernel 编写,掌握 GPU 并行计算、TileLang/Triton 以及性能调优实战。

CUDATritonTileLangProfiling
🖧
Module 03
AI 集群运维

大规模 AI 集群的构建、高速网络配置与运维管理,保障分布式训练任务的稳定高效运行。

InfiniBandNCCLGPU Ops
☁️
Module 04
云原生 AI 平台

基于 Kubernetes 的企业级 AI 基础设施,GPU 虚拟化、弹性调度、HAMi/KAI 资源管理实践。

KubernetesHAMiGPU 虚拟化
🎯
Module 05
模型训练与微调

大模型全流程训练、SFT 指令微调、LoRA/QLoRA 方法与 AI Ops 工程最佳实践总结。

SFTLoRAAI Ops
🧠
Module 06
LLM 理论与基础

大语言模型核心理论:模型量化、MoE 稀疏架构、Embedding 原理与 Deep Research 方法论。

量化MoEEmbedding
🔍
Module 07
RAG 与工具

检索增强生成(RAG)系统全链路设计,知识图谱与 LLM 协同、GraphRAG 与文档解析工具。

RAG知识图谱GraphRAG
🤖
Module 08
智能体系统

AI Agent 设计模式、多智能体协作架构、MCP 协议解析与 Agent 长期记忆机制实现。

Agent多智能体MCP
⚙️
Module 09
推理系统

高性能 LLM 推理工程:vLLM 源码深度解析、KV Cache 压缩优化与 DeepSeek 推理实践。

vLLMKV CacheDeepSeek
🎓
Module 10
AI 相关课程

系统化学习路径:AI Infra 入门课程、AI 编程实战、多智能体系统训练营与 Trae 编程实战。

AI InfraAI 编程多智能体
💻
Module 98
LLM 编程

大模型应用开发实战:LangGraph 框架深度应用、Java Spring AI 集成与 Harness Engineering。

LangGraphSpring AIJava
🛠️
Module 99
实用工具与杂项

前沿工具上手实践:Mac 本地部署 DeepSeek R1、Ollama 配置指南与开源模型基准测试。

DeepSeekOllama本地部署