11 条回复  ·  1270 次点击
rogerer 初学 2025-6-3 10:45:48
有很多种方式来并行。最简单的,你如果有 256 个 batch 要训练/推理,那就分成若干份,比如 4 个 64 个样本,这样就能一次推理得到 256 个样本的结果。但是如果模型参数足够大,以至于一张卡装不下,那就得在其他层面进行并行。
paopjian 小成 2025-6-3 10:54:22
不同模型使用方法不一样吧,nvlink 用于加强卡间通信的, 比如这张卡算完的中间结果给下张卡继续计算, 这张卡处理下一个数据,或者训练完一个 batch 后互相更新本地参数. 并行计算也分多种方式, nvlink 是为了极致运算效率的, pcie 能用就先 pcie 吧
12
返回顶部