分享
5月 AGI技术月报 下篇
输入“/”快速插入内容
5月 AGI技术月报 下篇
飞书用户8190
2024年9月10日修改
NVIDIA AI 芯片演进解读与推演
https://mp.weixin.qq.com/s/PQL1popiYarfXpiALlhHcw
NVIDIA 的 GB200 超级芯片采用双 Die 设计,具备 20 PFLOPS 的 FP4 算力,与前代 H100 相比,晶体管数量增加了一倍,算力提升了 5 倍。GB200 通过 NVLink、InfiniBand 和 Ethernet 三种网络技术实现互联,其中 NVLink 作为专有技术,演进速度最快,适用于 GPU 直连互联。GB200 NVL72 系统采用背板电缆互联,实现了高效的算力扩展,但面临高功耗和散热挑战。未来 AI 芯片发展可能面临的挑战包括算力提升受限于工艺演进、存储技术的发展与 GPU 演进同步问题,以及机框间互联技术成本和功耗的挑战。SuperPOD 超级节点的商业化需要降低 Rack-to-Rack 互联成本。NVLink、InfiniBand 和 Ethernet 三种网络技术在未来不太可能融合,各自在特定应用场景中具有不同的优势和发展方向。
50%
50%
LLM推理芯片之long context
https://zhuanlan.zhihu.com/p/699852364?utm_psn=1778368216580374528
这篇文章讨论了大型语言模型(LLM)在处理长上下文(long context)时的挑战和优化技术,并探讨了这些技术对推理芯片设计的影响。
文章详细介绍了几种优化技术,包括:
1.
Flash Attention
:通过优化softmax操作的访存效率来提高计算效率。
2.
Group Query Attention
:通过共享KV缓存来减少存储需求。
3.
Low-rank KV compression
:使用低维矩阵作为中间媒介来减少计算量。
4.
Attention Free Transformer (AFT)
:通过替代MHA计算来降低训练和推理的复杂度。
5.
SSM, RWKV, Mamba
:这些模型尝试通过不同的方法解决长上下文处理的问题,如SSM通过固定大小的状态变量保存Token历史信息,而Mamba则通过调整SSM的结构来实现in-context learning。
最后,文章讨论了这些技术对推理芯片设计的影响,指出了Group-Query Attention和Low-rank KV compression作为当前主流选择的原因,以及AFT和基于SSM的新模型如Mamba可能带来的挑战。
50%
50%
昇腾大模型 | 训推一体,LLaMA3-8B/70B昇腾首发
https://zhuanlan.zhihu.com/p/694563277
本文介绍了华为昇腾芯片上的大语言模型生态中的一个关键仓库“ModelLink”,它为大模型提供了端到端的解决方案。ModelLink支持LLaMA3模型在昇腾芯片上的训练、推理和评估全流程,涵盖了8B到70B的所有参数配置。特别地,ModelLink采用了张量并行、流水并行、序列并行及FlashAttention等技术加速LLaMA3的分布式训练。此外,它还实现了Huggingface开源权重到分布式框架的权重转换,极大地便利了大模型的训练和应用。
50%
50%
国产云端AI芯片破局,路在何方?
https://mp.weixin.qq.com/s/ptGlPPdIzfGzw4X7SVqRiw
中金公司的研究报告深入分析了国产云端AI芯片的发展现状和前景。报告认为,尽管国产AI芯片在硬件性能和系统生态方面与国际先进水平存在一定差距,但随着全球生成式AI技术的快速发展,国产大模型技术不断取得进展,市场需求旺盛,国产化进程加速。国产芯片在单芯片制程和架构优化方面正努力追赶,互联性能也在逐步提升,尽管目前与全球领先水平仍有2-3年的差距。系统生态建设方面,国产芯片需要适配主流训练框架,建立分布式通信库,构建推理引擎等,以逐步完善生态体系。报告还强调,AI芯片企业的成功不仅取决于技术能力,还需要综合考量产品规划、市场策略、供应链管理、资金运作等多方面因素。此外,报告提出了国产云端AI芯片面临的风险,包括贸易摩擦导致的供应链风险、行业竞争加剧以及研发不及预期等。
50%
50%
万卡 GPU 集群实战:探索 LLM 预训练的挑战
https://mp.weixin.qq.com/s/rLJlaqI2RL7TGUEQyx-QaA
万卡 GPU 集群实战文章深入探讨了大规模语言模型(LLM)预训练的挑战,特别强调了技术细节的重要性。文章首先概述了 LLM 预训练的背景,包括数据集、数据清洗、数据索引格式等,并指出了预训练过程中的关键技术要点,如模型分布式策略的选择、显存管理、以及如何处理 GPU 故障等。在显存管理方面,文章详细描述了 Adam 优化器的工作原理及其对显存占用的影响,并通过实际的计算公式展示了如何预估显存需求。此外,文章还讨论了多种并行训练策略,如数据并行(DP)、流水线并行(PP)、张量并行(TP)等,并分析了它们在提高训练效率和稳定性方面的作用。文章还提到了容错机制的重要性,包括自动故障检测、快速恢复以及弹性训练等,并通过 Meta OPT、BigScience Bloom、TII Falcon-180B 和字节 MegaScale 等案例,展示了这些技术在实际应用中的效果。最后,文章介绍了阿里的 DLRover 工具,展示了其在容错、快速恢复和弹性训练方面的创新之处,以及即将开源的性能剖析工具,以帮助开发者更好地优化训练过程。总之,本文通过对技术细节的深入分析,为大规模 LLM 预训练提供了宝贵的经验和指导。
50%
50%