MiniMax开源Blackwell专属注意力库,M3权重预计本周五发布

MiniMax开发者关系负责人Ryan Lee宣布,面向NVIDIA Blackwell(SM100)GPU的高性能注意力库MiniMax Sparse Attention(MSA)已正式开源,采用MIT协议。MiniMax-M3权重预计将于本周五发布。MSA应用于百万级上下文推理,通过筛选相关KV block,仅对选中块执行注意力计算。研究显示,在100万token上下文下,MSA相比同配置的Dense GQA,注意力计算量降低28.4倍,并在H800 GPU上实现14.2倍预填充加速和7.6倍解码加速。开源版本集成C++ JIT与Cute-DSL实现,支持多种精度格式。

上一篇:

下一篇:

发表回复

登录后才能评论