DFlash LoRA OOM 修复记录

OOM 根因分析

SHARD_GRAD_OP (ZeRO-2) — 每卡持有完整 Qwen3-8B 参数 (~16GB bf16)，参数未分片
SDPA + 4D additive mask — FlashAttention 不支持 4D additive mask，fallback 到 math backend，每层 materialize 完整 attention scores (bsz × 32heads × 2048 × 2048)
大 vocab logits — [bsz, 2048, 151936] bf16 ≈ 1.18GB，加上梯度和 boolean indexing 拷贝，峰值 ~3-4GB
机器只有 2 张 H100，脚本默认 NUM_GPUS=4

文件: SpecForge/specforge/core/dflash_lora.py, specforge/modeling/draft/dflash_lora.py, scripts/train_dflash_lora.py
从非 LoRA 版 dflash.py 移植 _get_or_create_block_mask() 方法，适配 LoRA 场景 (Q_LEN == KV_LEN == seq_len)
LoRA 版 mask: context causal + block bidirectional (非 LoRA 版是 [context, noise] concat KV)
用 --attention-backend flex_attention 启用 (默认)，退回 --attention-backend additive 走原有 4D mask
HuggingFace model 用 attn_implementation="flex_attention" 加载
效果: 不再 fallback 到 SDPA math backend，省去 [bsz, heads, seq, seq] attention scores 的显存

文件: SpecForge/specforge/core/dflash_lora.py, specforge/modeling/draft/dflash_lora.py, scripts/train_dflash_lora.py
从非 LoRA 版 dflash.py 移植 _chunked_lm_loss() 方法
分 chunk 过 lm_head + CE loss + gradient checkpointing，避免 materialize 完整 [bsz, seq, vocab] logits
用 --lm-head-chunk-size 256 启用 (默认 0 = 不启用)
DFlashLoRADraftModel.forward() 新增 output_hidden_states 参数，chunked 时返回 hidden states
效果: logits 峰值显存从 O(seq_len × vocab_size) 降至 O(chunk_size × vocab_size)