中金公司发布报告《AI进化论(2):模型+工程创新持续唤醒算力,DeepSeek撬动推理需求蓝海》,深入分析了DeepSeek(DS)在模型推理方面的创新及其对硬件需求的影响。报告指出,DS团队在模型优化和硬件工程化优化方面取得了双重创新。模型创新方面,DS引入多头潜在注意力机制(MLA)和原生稀疏注意力机制(NSA),前者通过压缩KV存储降低内存需求,后者通过压缩序列长度优化长文本建模,均显著提升推理效率。硬件工程化创新方面,DS采用Prefill/Decode分离策略,针对不同阶段的计算特性优化硬件配置,并在Decode阶段采用高专家并行度(EP320),提升计算单元利用效率,开源MLA内核为其他硬件适配提供思路。