6月23日週二15:20Open Source模型發布 AI Coding 中國模型

Prime Intellect 發布 prime-rl 0.6.0 用於訓練萬億參數 MoE 模型

查看原文

Decision Brief

變化Prime Intellect 發布了開源框架 prime-rl 0.6.0，用於在萬億參數混合專家模型上進行非同步強化學習。

為什麼重要此框架提供大規模強化學習訓練的開源方案，有助於 AI builder 實現高效能的 Agent 模型訓練。

誰該關注開源模型使用者

受影響技術棧GLM

建議動作評估

來源可信度中 · 可靠媒體或一手報導

Prime Intellect 發布 prime-rl 0.6.0，這是一個用於萬億參數混合專家（MoE）模型的非同步強化學習開源框架。該框架在 28 個 H200 節點上訓練了 GLM-5 模型，處理 SWE 任務，序列長度達 131k，步時間低於 5 分鐘，並支援 256 個 rollout。其關鍵優化包括 FP8 推理、寬專家並行（Wide Expert Parallelism）、prefill/decode 分離、router replay 以及 3-D 並行（FSDP、EP、CP）。

摘要依據：官方/RSS 來源如果不是「已讀全文」，這條詳摘只基於公開可取得內容，不會假裝讀過受限原文。

來源

MarkTechPost
Fast research-paper and ML tooling summaries, useful for infra and agent updates.
MarkTechPost

Decision Brief

來源

相關情報