Prime Intellect 發布 prime-rl 0.6.0 用於訓練萬億參數 MoE 模型
Decision Brief
變化Prime Intellect 發布了開源框架 prime-rl 0.6.0,用於在萬億參數混合專家模型上進行非同步強化學習。
為什麼重要此框架提供大規模強化學習訓練的開源方案,有助於 AI builder 實現高效能的 Agent 模型訓練。
誰該關注開源模型使用者
受影響技術棧GLM
建議動作評估
來源可信度中 · 可靠媒體或一手報導
Prime Intellect 發布 prime-rl 0.6.0,這是一個用於萬億參數混合專家(MoE)模型的非同步強化學習開源框架。該框架在 28 個 H200 節點上訓練了 GLM-5 模型,處理 SWE 任務,序列長度達 131k,步時間低於 5 分鐘,並支援 256 個 rollout。其關鍵優化包括 FP8 推理、寬專家並行(Wide Expert Parallelism)、prefill/decode 分離、router replay 以及 3-D 並行(FSDP、EP、CP)。
摘要依據:官方/RSS 來源如果不是「已讀全文」,這條詳摘只基於公開可取得內容,不會假裝讀過受限原文。
來源
- MarkTechPost
Fast research-paper and ML tooling summaries, useful for infra and agent updates.
- MarkTechPost