7月 AGI技术月报下篇

用户8190

2024年9月10日修改

7月31日

大模型的高效训练：从Infra到框架优化

https://zhuanlan.zhihu.com/p/711683629?utm_psn=1801704886368354306

本文深入探讨了大规模语言模型（LLMs）高效训练的关键技术细节。首先，LLMs 的训练对系统和基础设施提出了可扩展性、效率和可靠性的要求。在可扩展性方面，系统需要支持数万级 GPU 集群，并确保训练的准确性和模型的精度。效率方面，通过模型浮点运算利用率（MFU）来衡量，涉及计算优化、通信开销减少和内存管理。在可靠性方面，对于可能持续数周到数月的训练过程，系统必须保持稳定，并能够迅速从故障中恢复。​

文章详细介绍了分布式训练系统的关键要素，包括并行策略的选择、计算资源的优化利用、通信成本的最小化以及内存使用的高效管理。这些优化措施旨在提高系统的可扩展性和效率。此外，文章还探讨了容错机制，如何通过软硬件的协同工作，提高训练过程中的可靠性，以应对硬件故障、网络问题和软件错误等情况。​

论文链接：https://arxiv.org/abs/2407.20018

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

PyTorch 2.4 发布，有哪些值得关注的新特性？

https://www.zhihu.com/question/662630894?utm_psn=1801884831325495298

PyTorch 2.4 版本强化了对并行策略的支持，特别是通过 FSDP2（Fully Sharded Data Parallel）的引入，提高了分布式训练的性能，并优化了与 torch.compile 的兼容性。FSDP2 使用 DTensor 作为底层支持，相比于 FSDP1，性能提升了约 7%。此外，PyTorch 2.4 增加了对流水线并行（PP）的支持，包括 GPipe、1F1B、Interleaved 1F1B 和 Looped BFS 等策略，以及对 block-wise attention mask 的支持，这对于大模型的训练具有重要意义。在性能优化方面，PyTorch 2.4 改进了 CUDA 内核的执行路径，减少了内存访问延迟，并降低了分布式训练中的通信开销。同时，PyTorch 2.4 在 API 设计上进行了升级，新增了自动混合精度（AMP）功能，提高了模型训练和推理的效率。Python 3.12 的更新带来了性能提升和新特性，如结构化模式匹配和参数化泛型，这些都为深度学习开发者提供了更多的工具和更高的效率。​

50%

探索CRAM：提升AI计算性能的革命性技术

https://zhuanlan.zhihu.com/p/711850674?utm_psn=1801885652725399553

内存原生 CRAM 技术是一种创新的计算存储解决方案，它通过在 DRAM 芯片内部集成计算功能，实现数据在内存中直接处理，从而彻底消除了数据在内存与处理器之间传输的瓶颈。CRAM 技术的核心在于它能够在 DRAM 的存储单元 ——Cell 中执行计算任务，这不仅极大地降低了能耗，还缩短了数据处理的延迟。与传统的 Von Neumann 架构相比，CRAM 技术省略了数据在内存和 CPU 之间的来回传输，因此能够显著提升系统的整体性能，特别适合于数据密集型的应用场景，如人工智能、大数据分析等。然而，CRAM 技术的实现也面临着一些挑战，包括但不限于芯片设计的复杂性、制造工艺的改进以及对现有软件栈的适配。​

50%

解析千卡异构混训的破局之道

https://zhuanlan.zhihu.com/p/711925986

千卡异构混训技术作为一种创新的解决方案，针对 AI 模型训练中的算力焦虑问题，通过混合利用不同类型的计算资源（如 CPU、GPU、TPU 等），实现了算力的高效配置和使用。该技术的核心在于动态资源调配，它能够根据模型在不同训练阶段的需求，智能分配计算资源，从而在保证模型性能的前提下，降低计算成本和加速训练过程。技术细节上，千卡异构混训涉及到对模型特性的深入分析，以及如何通过算法层面的优化来提升资源利用率。例如，通过设计更高效的数据加载和传输机制，减少 I/O 瓶颈；通过优化模型结构和参数，减少计算量而不牺牲性能。此外，该技术还能够通过自适应调整学习率和批大小等策略，进一步优化训练过程。​

50%

CUDA Graph 在 Transformers 中的使用和进一步改进 - KTransformers (1)

https://zhuanlan.zhihu.com/p/711803999

7月 AGI技术月报 下篇​

7月 AGI技术月报下篇