根據 Beating,Nous Research 已將 Lighthouse Attention 開源。這是一種長上下文訓練機制,可在單一 B200 GPU 上,將 512K 長度文字處理速度提升 17 倍,並在 98K 長度時提供 1.4–1.7 倍的端到端訓練加速。該技術採用粗到細的方法:先在不同層級掃描壓縮摘要以辨識核心片段,接著將篩選後的文本交由 FlashAttention 進行處理。在針對一個於 500 億 tokens 訓練的 51.2萬參數模型進行測試時,此方法不僅縮短了訓練時間,還達到或超越了全注意力式訓練的基準效能。
Related News