6月26日週五01:11Open Source

DeepReinforce 開源 Ornith-1.0 編碼模型，可自學強化學習支架

DeepReinforce 宣布推出 Ornith-1.0，一個開源編碼模型家族，基於 Gemma 4 和 Qwen 3.5。其關鍵創新在於模型在強化學習過程中自行學習推理支架（scaffold），而非使用固定 harness。其中 397B 參數的旗艦模型在 SWE-Bench Verified 基準上達到 82.4 分，所有權重均以 MIT 授權開源。

Decision Brief

變化DeepReinforce 發布 Ornith-1.0，一個基於 Gemma 4 和 Qwen 3.5 的開源編碼模型家族，能在強化學習中自學支架，397B 旗艦模型在 SWE-Bench Verified 上取得 82.4 分。

為什麼重要AI builder 需要關注這種自學強化學習支架的方法，可能改變現有 RL 框架依賴固定 harneess 的設計。

誰該關注開源模型使用者

受影響技術棧Qwen

建議動作評估

來源可信度中 · 可靠媒體或一手報導

摘要依據：官方/RSS 來源如果不是「已讀全文」，這條詳摘只基於公開可取得內容，不會假裝讀過受限原文。

查看原文

來源

MarkTechPost
Fast research-paper and ML tooling summaries, useful for infra and agent updates.
MarkTechPost