ABIAI Builder Intel給 AI 產品/開發者的即時情報流
回到時間線

6月26日週五01:11Open Source

DeepReinforce 開源 Ornith-1.0 編碼模型,可自學強化學習支架

DeepReinforce 宣布推出 Ornith-1.0,一個開源編碼模型家族,基於 Gemma 4 和 Qwen 3.5。其關鍵創新在於模型在強化學習過程中自行學習推理支架(scaffold),而非使用固定 harness。其中 397B 參數的旗艦模型在 SWE-Bench Verified 基準上達到 82.4 分,所有權重均以 MIT 授權開源。

Decision Brief

變化DeepReinforce 發布 Ornith-1.0,一個基於 Gemma 4 和 Qwen 3.5 的開源編碼模型家族,能在強化學習中自學支架,397B 旗艦模型在 SWE-Bench Verified 上取得 82.4 分。
為什麼重要AI builder 需要關注這種自學強化學習支架的方法,可能改變現有 RL 框架依賴固定 harneess 的設計。
誰該關注開源模型使用者
受影響技術棧Qwen
建議動作評估
來源可信度 · 可靠媒體或一手報導
摘要依據:官方/RSS 來源如果不是「已讀全文」,這條詳摘只基於公開可取得內容,不會假裝讀過受限原文。
查看原文

來源

  • MarkTechPost

    Fast research-paper and ML tooling summaries, useful for infra and agent updates.

  • MarkTechPost