GPU 编程

1. 概述

本章节构建了从基础 CUDA 编程到前沿 Tile-Based 优化的完整知识体系,旨在帮助开发者掌握高性能计算的核心编程范式。


2. 环境准备

工欲善其事,必先利其器。在开始 GPU 编程之前,首先需要构建一个标准化的容器开发环境。


3. 核心编程范式

本章介绍 GPU 编程的两种主要范式:传统的基于线程的 SIMT 模型,以及面向现代张量核心的基于数据块的模型。

3.1 CUDA 编程基础

NVIDIA 官方标准的并行计算架构与编程模型,是 GPU 编程的基石。

3.2 Tile-Based 编程与 TileLang

针对现代硬件(如 Tensor Core)优化的更高级编程模型,以数据块(Tile)为中心。


4. 性能分析与优化

性能调优是 GPU 编程中不可或缺的一环,本章提供相关的性能测试与分析工具指南。


5. 学习资源库

本章汇总了 GPU 编程相关的内外部学习资料,供不同阶段的开发者参考。

5.1 快速入门

5.2 进阶实战

面向专业开发者的深度优化指南。

  • CUDA-Learn-Notes - 涵盖 200+ 个 Tensor Core/CUDA Core 极致优化内核示例 (HGEMM, FA2 via MMA and CuTe)。

5.3 参考资料大全

我们整理了从官方文档到社区精选的完整学习路径。

书籍与文档

代码仓库与示例

社区与讲座