PyTorch 2.4 版本强化了对并行策略的支持,特别是通过 FSDP2(Fully Sharded Data Parallel)的引入,提高了分布式训练的性能,并优化了与 torch.compile 的兼容性。FSDP2 使用 DTensor 作为底层支持,相比于 FSDP1,性能提升了约 7%。此外,PyTorch 2.4 增加了对流水线并行(PP)的支持,包括 GPipe、1F1B、Interleaved 1F1B 和 Looped BFS 等策略,以及对 block-wise attention mask 的支持,这对于大模型的训练具有重要意义。在性能优化方面,PyTorch 2.4 改进了 CUDA 内核的执行路径,减少了内存访问延迟,并降低了分布式训练中的通信开销。同时,PyTorch 2.4 在 API 设计上进行了升级,新增了自动混合精度(AMP)功能,提高了模型训练和推理的效率。Python 3.12 的更新带来了性能提升和新特性,如结构化模式匹配和参数化泛型,这些都为深度学习开发者提供了更多的工具和更高的效率。