Ollama v0.31.1 在 Apple Silicon 上利用多令牌預測使 Gemma 4 令牌生成速度提升近 90%
Decision Brief
變化Ollama v0.31.1 在 Apple Silicon 上利用多令牌預測技術顯著提升 Gemma 4 的推理速度。
為什麼重要多令牌預測無需配置即可使編碼代理任務的令牌生成速度平均提升 90%,本地推理效率大增。
誰該關注AI coding 工具使用者、推理 / 基建團隊
受影響技術棧OllamaLlama
建議動作升級
來源可信度高 · 官方發布 / 官方 blog / 官方 repo
Ollama v0.31.1 在 Apple Silicon 上針對 Gemma 4 模型進行了優化,通過啟用多令牌預測(MTP),在編碼代理基準測試中令牌生成速度平均提升近 90%。該功能默認開啟,無需用戶配置,且不改變模型輸出。此外,本版本還更新了 MLX 引擎和 llama.cpp 引擎,優化了模型加載和矩陣乘法內核。
摘要依據:官方/RSS 來源如果不是「已讀全文」,這條詳摘只基於公開可取得內容,不會假裝讀過受限原文。
來源
- Ollama(GitHub Releases)
Local-model runtime releases: new supported models and serving features.
- Ollama(GitHub Releases)