Nous Research ने इस हफ्ते Lighthouse Attention publish किया — एक training-only hierarchical attention mechanism जो queries, keys, और values को symmetrically multi-level pyramid में pool करता है, top-K selection को kernel के बाहर चलाता है, और FlashAttention को एक छोटी dense sub-sequence पर operate करने देता है। Reported wall-clock pretraining speedup: cuDNN-backed SDPA के against 530M Llama-3-style decoder पर end-to-end 1.40-1.69×, 512K context पर single GPU में और 32 GPUs पर 1M tokens context parallelism के साथ test किया। 512K पर kernel-level speedup और तेज़: 21× forward, 17.3× forward+backward। Authors: Peng, Ghosh, Quesnelle। arXiv 2605.06554, code github.com/ighoshsubho/lighthouse-attention पर torchtitan पर एक patch plus दो नई files के रूप में।

Lighthouse को पहले के NSA और HISA काम से अलग करने वाला architectural choice symmetric Q/K/V pooling है, सिर्फ K/V नहीं। पहले के selection-based attention methods queries को full resolution पर छोड़ देते थे और सिर्फ K/V side को pool करते थे; Lighthouse तीनों को pyramid में pool करता है और उन पर ℓ₂-norm chunked-bitonic top-K selection चलाता है। Cost O(N·S·d) से O(S²·d) पर move होती है। Four-stage pipeline — average-pool L levels में, score और top-K, selected entries gather, gather पर stock FlashAttention चलाओ, deterministic kernel के through outputs scatter वापस — inner attention kernel को dense sequences पर बिल्कुल वैसा ही रखता है। यही practical reason है कि FlashAttention की speedup Lighthouse की selection के साथ compose होती है, उससे लड़ने के बजाय।

Training-only positioning matter करती है। Lighthouse inference में हट जाता है: दो-stage training recipe — stage 1 selection enabled के साथ train करता है, stage 2 dense SDPA के नीचे resume करता है। Final training loss 0.6980-0.7102 vs dense-from-scratch baseline 0.7237 — marginally better — 22.5-27.0 hours wall-clock पर vs dense baseline के लिए 37.9 hours, उसी model और token budget पर (~50.3B tokens, 16,000 steps)। तो win training-compute axis पर है, inference-compute axis पर नहीं: Lighthouse के साथ trained model deployment पर एक normal dense model की तरह behave करता है। यह sparse-attention-at-inference work (StreamingLLM, KV cache compression) और production में ship हो रहे architecture-level sparse attention से अलग problem statement है। Lighthouse design space में "pretrain cheaper, deploy dense" point है।

सोमवार: अगर आप commodity training infrastructure पर long context पर एक model pretrain कर रहे हो, Lighthouse एक torchtitan patch और दो files की दूरी पर है आपके training run पर ablation के लिए। 530M-scale result suggestive है, load-bearing नहीं — 1.4-1.7× 7B, 70B, या 405B पर hold करता है या नहीं वो open question है। Selection overhead (gather/scatter, top-K) model size के साथ linearly scale नहीं करता, तो speedup compress या expand हो सकता है। Watch करो Nous खुद को scale पर replicate करते हुए, watch करो अगले Llama, Qwen, या DeepSeek pretrains symmetric-pyramid pooling trick adopt करते हैं या नहीं, और GitHub repo को watch करो एक cuDNN-grade fused kernel के लिए जो अभी publish नहीं हुआ — production-grade adoption वहीं gate होती है।