modern C++ DesignPattern-Part1

Gpu 适合大规模并行计算场景 cpu更适合串行任务优化&线程数量少 gpu结构：global memory (显存) + 流处理器（里面有很多 cuda core），通过PCIE与cpu连接 sm(流处理器) 存储 globalmem->L2->L1/SMEM/C -> 寄存器 gpu之间可以通过nv link(40GB/s)，避免pcie慢速 cuda编程：主函数: host(cpu)->kernel(gpu)->host(单线程) Nvcc编译，__global____标识gpu程序入口显存分配cudaMalloc cudaMemset cudaFree 数据从cpu端->显存，__host__ cudaMemcpy() 异步拷贝：cudaMemoryAsync 现有技术：从ssd直接读入显存，从另一个服务器的gpu通过网卡直接读入本机gpu，不需要经过cpu处理运行模型：1.Grid，包含很多block，2.block(单个流处理器中)包含很多thread <<<Grid, Block>>> 在main函数中指定grid，block个数(并发使用，如果sm间没有数据交互，优先使用SM(也就是Grid尽量大)) thread_idx = blockidx.x * blockdim.x + threadidx.x 推荐尽量多的使用线程，而不是根据sm数量分配线程 cuda优化 cudnn：深度学习相关库 cublas：矩阵相乘 cuSPARSE: 稀疏矩阵计算 NCCL: 自动化处理多GPU数据传输 TensorRT: 重要 TensorRT Fuse network layers(FP16 与 INT8) 1.5-4倍加速比 Onnx/tensor模型文件->build(自动调优)->deploy 优化手段： vec相乘->矩阵相乘使用评估工具，内存带宽瓶颈 or 计算瓶颈