5月 AGI技术月报下篇

飞书用户8190

2024年9月10日修改

NVIDIA AI 芯片演进解读与推演

https://mp.weixin.qq.com/s/PQL1popiYarfXpiALlhHcw

NVIDIA 的 GB200 超级芯片采用双 Die 设计，具备 20 PFLOPS 的 FP4 算力，与前代 H100 相比，晶体管数量增加了一倍，算力提升了 5 倍。GB200 通过 NVLink、InfiniBand 和 Ethernet 三种网络技术实现互联，其中 NVLink 作为专有技术，演进速度最快，适用于 GPU 直连互联。GB200 NVL72 系统采用背板电缆互联，实现了高效的算力扩展，但面临高功耗和散热挑战。未来 AI 芯片发展可能面临的挑战包括算力提升受限于工艺演进、存储技术的发展与 GPU 演进同步问题，以及机框间互联技术成本和功耗的挑战。SuperPOD 超级节点的商业化需要降低 Rack-to-Rack 互联成本。NVLink、InfiniBand 和 Ethernet 三种网络技术在未来不太可能融合，各自在特定应用场景中具有不同的优势和发展方向。​

50%

common.docs_name - LarkCCM_Docs_Menu_Image

50%

LLM推理芯片之long context

https://zhuanlan.zhihu.com/p/699852364?utm_psn=1778368216580374528

这篇文章讨论了大型语言模型（LLM）在处理长上下文（long context）时的挑战和优化技术，并探讨了这些技术对推理芯片设计的影响。​

文章详细介绍了几种优化技术，包括：

1.
Flash Attention：通过优化softmax操作的访存效率来提高计算效率。​

2.
Group Query Attention：通过共享KV缓存来减少存储需求。​

3.
Low-rank KV compression：使用低维矩阵作为中间媒介来减少计算量。​

4.
Attention Free Transformer (AFT)：通过替代MHA计算来降低训练和推理的复杂度。​

5.
SSM, RWKV, Mamba：这些模型尝试通过不同的方法解决长上下文处理的问题，如SSM通过固定大小的状态变量保存Token历史信息，而Mamba则通过调整SSM的结构来实现in-context learning。​

最后，文章讨论了这些技术对推理芯片设计的影响，指出了Group-Query Attention和Low-rank KV compression作为当前主流选择的原因，以及AFT和基于SSM的新模型如Mamba可能带来的挑战。​

50%

昇腾大模型 | 训推一体，LLaMA3-8B/70B昇腾首发

https://zhuanlan.zhihu.com/p/694563277

本文介绍了华为昇腾芯片上的大语言模型生态中的一个关键仓库“ModelLink”，它为大模型提供了端到端的解决方案。ModelLink支持LLaMA3模型在昇腾芯片上的训练、推理和评估全流程，涵盖了8B到70B的所有参数配置。特别地，ModelLink采用了张量并行、流水并行、序列并行及FlashAttention等技术加速LLaMA3的分布式训练。此外，它还实现了Huggingface开源权重到分布式框架的权重转换，极大地便利了大模型的训练和应用。​

50%

国产云端AI芯片破局，路在何方？

https://mp.weixin.qq.com/s/ptGlPPdIzfGzw4X7SVqRiw

中金公司的研究报告深入分析了国产云端AI芯片的发展现状和前景。报告认为，尽管国产AI芯片在硬件性能和系统生态方面与国际先进水平存在一定差距，但随着全球生成式AI技术的快速发展，国产大模型技术不断取得进展，市场需求旺盛，国产化进程加速。国产芯片在单芯片制程和架构优化方面正努力追赶，互联性能也在逐步提升，尽管目前与全球领先水平仍有2-3年的差距。系统生态建设方面，国产芯片需要适配主流训练框架，建立分布式通信库，构建推理引擎等，以逐步完善生态体系。报告还强调，AI芯片企业的成功不仅取决于技术能力，还需要综合考量产品规划、市场策略、供应链管理、资金运作等多方面因素。此外，报告提出了国产云端AI芯片面临的风险，包括贸易摩擦导致的供应链风险、行业竞争加剧以及研发不及预期等。​

50%

万卡 GPU 集群实战：探索 LLM 预训练的挑战

https://mp.weixin.qq.com/s/rLJlaqI2RL7TGUEQyx-QaA

万卡 GPU 集群实战文章深入探讨了大规模语言模型（LLM）预训练的挑战，特别强调了技术细节的重要性。文章首先概述了 LLM 预训练的背景，包括数据集、数据清洗、数据索引格式等，并指出了预训练过程中的关键技术要点，如模型分布式策略的选择、显存管理、以及如何处理 GPU 故障等。在显存管理方面，文章详细描述了 Adam 优化器的工作原理及其对显存占用的影响，并通过实际的计算公式展示了如何预估显存需求。此外，文章还讨论了多种并行训练策略，如数据并行（DP）、流水线并行（PP）、张量并行（TP）等，并分析了它们在提高训练效率和稳定性方面的作用。文章还提到了容错机制的重要性，包括自动故障检测、快速恢复以及弹性训练等，并通过 Meta OPT、BigScience Bloom、TII Falcon-180B 和字节 MegaScale 等案例，展示了这些技术在实际应用中的效果。最后，文章介绍了阿里的 DLRover 工具，展示了其在容错、快速恢复和弹性训练方面的创新之处，以及即将开源的性能剖析工具，以帮助开发者更好地优化训练过程。总之，本文通过对技术细节的深入分析，为大规模 LLM 预训练提供了宝贵的经验和指导。​

50%

5月 AGI技术月报 下篇​

5月 AGI技术月报下篇