研究與論文
重要論文、研究突破與模型評測基準。
7月3日週五Research
使用 DSPy 評估並改進 Datasette Agent 的 SQL 系統提示詞一項研究使用 DSPy 對 Datasette Agent 的 SQL 系統提示詞進行評估與改進。
7月2日週四Agent
自研究:自我改进Agent背后的反馈循环Introspection联合创始人Roland Gavrilescu解释自研究、Agent“配方”、自我改进循环以及人类在软件工厂中的核心地位。
7月1日週三Model/API
Google AI 推出 TabFM:用於零樣本分類與回歸的混合注意力表格基礎模型Google Research 發布了 TabFM,一個適用於表格資料的基礎模型,可透過上下文學習進行零樣本分類與回歸。
7月1日週三Model/API
Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8:代理编码基准、API定价与性价比对比Anthropic 的 Claude Sonnet 5 在代理编码任务上缩小了与 Opus 4.8 的差距,同时保持更低的 Sonnet 级别定价。
7月1日週三Tools
ScarfBench:為企業 Java 框架遷移基準測試 AI 代理ScarfBench 是一個用於基準測試 AI 代理在企業 Java 框架遷移任務中表現的新工具。
7月1日週三Tools
shot-scraper video:讓編碼代理自動錄製網頁操作示範影片shot-scraper 1.10 推出新指令 shot-scraper video,可依 storyboard.yml 檔案自動錄製網頁操作示範影片。
6月30日週二Research
Together AI 在 ICML 2026 展示全棧前沿研究Together AI 在 ICML 2026 發表八篇全棧論文,並在首爾 B714 展位展出。
6月30日週二Research
OpenAI 推出 GeneBench-Pro 基准测试,评估AI在基因组学等科学领域表现OpenAI 发布 GeneBench-Pro,这是一个使用复杂真实世界数据集测试AI在基因组学、生物学和科学研究中性能的新基准。
6月24日週三Tools
Nous Research 為 Hermes Agent 技能系統新增 /learn,無需手寫 SKILL.md 即可捕獲工作流程為斜線命令Nous Research 在 Hermes Agent 的技能系統中新增了 /learn 命令,能從本地目錄、文檔 URL、過往對話或筆記自動生成符合標準的 SKILL.md 文件,無需手寫或額外的攝取引擎。
6月24日週三Research
DFlash 推測解碼:並行生成整塊 Token,在 NVIDIA Blackwell 上實現最高 15 倍吞吐量提升UC San Diego 的 DFlash 用輕量級區塊擴散模型取代自回歸草稿生成,在單次前向傳播中並行生成整塊 token,實現推測解碼加速。
6月24日週三Tools
OPFS + Pyodide 測試工具:瀏覽器中執行持久化 SQLite 檔案編輯Simon Willison 開發了一個 OPFS + Pyodide 測試工具,探索 Datasette Lite 是否能透過瀏覽器的 Origin Private File System 編輯使用者本機的 SQLite 檔案。
6月23日週二Tools
Sony 的 AI 相機助理照片品質極差Sony Xperia 1 VIII 的 AI Camera Assistant 拍攝出多年來最糟糕的照片。
6月21日週日Tools
Nous Research 為 Hermes Agent 新增 Blank Slate 模式,通過平台工具集 CLI 和禁用工具集固定工具集Nous Research 為其開源 Hermes Agent 新增了 Blank Slate 設置模式,啟動時僅保留提供者、模型、檔案操作和終端,其餘功能需用戶選擇啟用。
6月19日週五Tools
Datasette Apps:在 Datasette 內部託管自訂 HTML 應用程式Datasette 推出新插件 datasette-apps,讓使用者在 Datasette 實例中託管受沙盒限制的 HTML+JavaScript 應用程式。
6月18日週四Model/API
OpenAI發布LifeSciBench:以750項生物科學任務評測AI模型OpenAI推出LifeSciBench基準,評估AI模型在實際生命科學研究中的表現。
6月18日週四Model/API
中國Z.ai實驗室發布GLM-5.2成為最強開源文本大型語言模型中國Z.ai實驗室於6月16日開源發布了具有7530億參數的文本輸入大型語言模型GLM-5.2。
6月16日週二Agent
Hermes Agent 新增非同步子代理,委派工作不再阻塞父對話Nous Research 的 Hermes Agent 新增非同步子代理功能,委派工具可生成背景代理,不再阻塞父對話。