6月24日週三15:21ResearchAPI 與價格中國模型 Infra / 成本

DFlash 推測解碼：並行生成整塊 Token，在 NVIDIA Blackwell 上實現最高 15 倍吞吐量提升

查看原文

Decision Brief

變化UC San Diego 的 DFlash 用輕量級區塊擴散模型取代自回歸草稿生成，在單次前向傳播中並行生成整塊 token，實現推測解碼加速。

為什麼重要DFlash 展示了一種新的推測解碼方法，能顯著提升推理吞吐量，且支援主流推理引擎，對 AI 建構者在模型部署與最佳化方面有參考價值。

誰該關注所有 AI builder、推理 / 基建團隊

受影響技術棧QwenNVIDIA

建議動作觀察

來源可信度中 · 可靠媒體或一手報導

DFlash 是由加州大學聖地牙哥分校提出的推測解碼技術，其核心是以輕量級區塊擴散模型取代傳統的自回歸草稿生成方式。該方法能在單次前向傳播中並行生成整塊 token，並透過 KV 注入條件化目標隱藏特徵。論文報告在 Qwen3-8B 上實現最高 6.08 倍無損加速，而 NVIDIA 則在 Blackwell 架構上達到 15 倍的吞吐量提升（固定互動性下）。DFlash 已釋出 20 個檢查點，並支援 SGLang、vLLM 與 TensorRT-LLM 等主流推理引擎。

摘要依據：官方/RSS 來源如果不是「已讀全文」，這條詳摘只基於公開可取得內容，不會假裝讀過受限原文。

來源

MarkTechPost
Fast research-paper and ML tooling summaries, useful for infra and agent updates.
MarkTechPost

Decision Brief

來源

相關情報