Pyramid Attention Broadcast (PAB) 是一种打破 AI 视频生成速度瓶颈的技术,它通过分析 attention 输出的 U 型变化规律,发现中间步骤的 attention 差异稳定且小,存在明显冗余。利用这一特点,PAB 通过 broadcast 机制将前一步骤的 attention 结果直接传递给后续步骤,避免了重复计算。此外,PAB 根据不同 attention 类型的变化差异采用了不同的广播策略,进一步提升了速度。同时,PAB 改进了动态序列并行技术,减少了 GPU 工作负载和通信开销,实现了高效的分布式推理。实验结果表明,单卡加速达到 1.31 倍,八卡时可达 10.6 倍加速,显著提高了视频生成的实时性和效率。这一技术在多种 DiT 模型上都取得了稳定的加速效果,展现了其在 AI 视频生成领域的巨大潜力。