DFlash 推測解碼:並行生成整塊 Token,在 NVIDIA Blackwell 上實現最高 15 倍吞吐量提升
Decision Brief
變化UC San Diego 的 DFlash 用輕量級區塊擴散模型取代自回歸草稿生成,在單次前向傳播中並行生成整塊 token,實現推測解碼加速。
為什麼重要DFlash 展示了一種新的推測解碼方法,能顯著提升推理吞吐量,且支援主流推理引擎,對 AI 建構者在模型部署與最佳化方面有參考價值。
誰該關注所有 AI builder、推理 / 基建團隊
受影響技術棧QwenNVIDIA
建議動作觀察
來源可信度中 · 可靠媒體或一手報導
DFlash 是由加州大學聖地牙哥分校提出的推測解碼技術,其核心是以輕量級區塊擴散模型取代傳統的自回歸草稿生成方式。該方法能在單次前向傳播中並行生成整塊 token,並透過 KV 注入條件化目標隱藏特徵。論文報告在 Qwen3-8B 上實現最高 6.08 倍無損加速,而 NVIDIA 則在 Blackwell 架構上達到 15 倍的吞吐量提升(固定互動性下)。DFlash 已釋出 20 個檢查點,並支援 SGLang、vLLM 與 TensorRT-LLM 等主流推理引擎。
摘要依據:官方/RSS 來源如果不是「已讀全文」,這條詳摘只基於公開可取得內容,不會假裝讀過受限原文。
來源
- MarkTechPost
Fast research-paper and ML tooling summaries, useful for infra and agent updates.
- MarkTechPost