- Sun.StriKE's Blog

Gpu 适合大规模并行计算场景 cpu更适合串行任务优化&线程数量少
gpu结构：global memory (显存) + 流处理器（里面有很多 cuda core），通过PCIE与cpu连接
1. sm(流处理器)
2. 存储 globalmem->L2->L1/SMEM/C -> 寄存器
3. gpu之间可以通过nv link(40GB/s)，避免pcie慢速
cuda编程：主函数: host(cpu)->kernel(gpu)->host(单线程)
1. Nvcc编译，__global____标识gpu程序入口
2. 显存分配cudaMalloc cudaMemset cudaFree
3. 数据从cpu端->显存，__host__ cudaMemcpy() 异步拷贝：cudaMemoryAsync
4. 现有技术：从ssd直接读入显存，从另一个服务器的gpu通过网卡直接读入本机gpu，不需要经过cpu处理
5. 运行模型：1.Grid，包含很多block，2.block(单个流处理器中)包含很多thread
6. <<<Grid, Block>>> 在main函数中指定grid，block个数(并发使用，如果sm间没有数据交互，优先使用SM(也就是Grid尽量大)) thread_idx = blockidx.x * blockdim.x + threadidx.x
7. 推荐尽量多的使用线程，而不是根据sm数量分配线程

cudnn：深度学习相关库

cublas：矩阵相乘

cuSPARSE: 稀疏矩阵计算

NCCL: 自动化处理多GPU数据传输

TensorRT: 重要

文章目录