2022年,Horace He测试了一个名为CUTLASS的新项目,该项目能够在GPU上快速执行矩阵乘法。通过比较CuBLAS和CUTLASS的性能,他发现CUTLASS在自动调整(autotuning)后的性能比CuBLAS高出10%,这在处理大型计算绑定的矩阵乘法时表现尤为突出。然而,当将CUTLASS的核心绑定到Python并重新测试时,这种性能优势消失了。更令人惊讶的是,矩阵中的值竟然会影响矩阵乘法的运行时间。例如,全零的输入因为转换频率的减少,降低了动态/切换电源的消耗,从而使性能提升。这一现象揭示了半导体动态/切换电源如何影响GPU的功率限制和性能。