快手开发的 Blaze 是一款基于 Rust 和 datafusion 框架的 SparkSQL Native 执行引擎,旨在通过向量化技术和 SIMD 指令提升执行效率。Blaze 通过 Native Session Extension 将 Spark 物理执行计划转换为 Native Plan,实现与 Spark 分布式计算框架的兼容,并通过 Native Engine 执行计算,提高性能。在深度优化中,Blaze 采用了细粒度 FailBack 机制、基于 CBO 的转换策略、自定义的向量化数据传输格式、多级内存管理策略,以及对聚合算法的优化,减少了重复计算,提升了执行效率。目前,Blaze 支持 Parquet 向量化读写、常用算子和表达式,以及自研的 Remote Shuffle Service,并在 TPC-H 测试中显示出性能的显著提升