MiniMax开发者关系负责人Ryan Lee宣布,面向NVIDIA Blackwell(SM100)GPU的高性能注意力库MiniMax Sparse Attention(MSA)已正式开源,采用MIT协议。MiniMax-M3权重预计将于本周五发布。MSA应用于百万级上下文推理,通过筛选相关KV block,仅对选中块执行注意力计算。研究显示,在100万token上下文下,MSA相比同配置的Dense GQA,注意力计算量降低28.4倍,并在H800 GPU上实现14.2倍预填充加速和7.6倍解码加速。开源版本集成C++ JIT与Cute-DSL实现,支持多种精度格式。

