Nous Research开源Lighthouse Attention:单卡512K上下文提速17倍
AI研究公司Nous Research正式开源了长上下文预训练方案Lighthouse Attention,这是一套基于选择性层级注意力的机制,能够在单张NVIDIA B200显卡上将512K长度文本的处理速度提升约17倍,同时在98K上下文长度下实现端到端训练1.4至1.7倍的加速。
打破长文本计算的平方级瓶颈
传统的注意力机制需要计算所有Token之间的两两关系,导致算力消耗随上下文长度呈平方级增长。Lighthouse Attention采用"先粗筛再精算"的分层策略:首先在多个层级快速浏览文本的压缩摘要,通过打分机制筛选核心片段,再将精选的短序列交给标准高效算子FlashAttention处理。这种设计的优势在于筛选逻辑完全剥离至内核之外,开发者无需手写底层代码,也无需引入额外的训练目标。
技术细节:金字塔头与Top-K级联
根据Nous Research官方披露,该方案的核心创新在于**金字塔头(Pyramid Heads)**机制:模型在多个粒度层级同时评估Token重要性,通过Top-K级联选择器挑选出层级密集的子序列,再经排序通过(Sorting Pass)强制因果性约束,最终使用标准注意力完成Token混合。这一过程全程无需自定义稀疏注意力内核、Straight-Through估计器或辅助损失函数,大幅降低了工程落地门槛。
"全注意力Resume":兼顾效率与精度
类似的长上下文加速方案长期面临副作用风险——模型习惯跳跃式阅读后,可能丧失逐字精读能力。为此,Lighthouse Attention在训练流程末尾引入短暂的全注意力Resume阶段:让模型先用加速模式完成绝大部分训练进度,仅在最后阶段短暂切回传统全注意力计算进行"微调校准"。
实测验证:性能全面追平甚至反超基线
在针对5.3亿参数规模模型、500亿Token训练数据的实测中,基于Lighthouse Attention训练的模型不仅大幅缩短了训练耗时,最终表现还全面追平甚至超越了全程使用传统全注意力训练的基线版本,验证了该方案在效率与精度上的双重可行性。
该研究成果已在GitHub开源,有望为长上下文大模型训练提供更经济的算力解决方案。