研究與論文

重要論文、研究突破與模型評測基準。

模型發布 API 與價格 MCP 與 Skills AI Coding 中國模型開源模型 Agent Infra / 成本多模態與圖像 AI 影片 AI 語音 AI 晶片與硬體機器人與具身 AI 安全與對齊企業與落地 AI 投資與融資政策與監管值得試用

7月3日週五Research
使用 DSPy 評估並改進 Datasette Agent 的 SQL 系統提示詞
一項研究使用 DSPy 對 Datasette Agent 的 SQL 系統提示詞進行評估與改進。
7月2日週四Agent
自研究：自我改进Agent背后的反馈循环
Introspection联合创始人Roland Gavrilescu解释自研究、Agent“配方”、自我改进循环以及人类在软件工厂中的核心地位。
7月1日週三Model/API
Google AI 推出 TabFM：用於零樣本分類與回歸的混合注意力表格基礎模型
Google Research 發布了 TabFM，一個適用於表格資料的基礎模型，可透過上下文學習進行零樣本分類與回歸。
7月1日週三Model/API
Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：代理编码基准、API定价与性价比对比
Anthropic 的 Claude Sonnet 5 在代理编码任务上缩小了与 Opus 4.8 的差距，同时保持更低的 Sonnet 级别定价。
7月1日週三Tools
ScarfBench：為企業 Java 框架遷移基準測試 AI 代理
ScarfBench 是一個用於基準測試 AI 代理在企業 Java 框架遷移任務中表現的新工具。
7月1日週三Tools
shot-scraper video：讓編碼代理自動錄製網頁操作示範影片
shot-scraper 1.10 推出新指令 shot-scraper video，可依 storyboard.yml 檔案自動錄製網頁操作示範影片。
6月30日週二Research
Together AI 在 ICML 2026 展示全棧前沿研究
Together AI 在 ICML 2026 發表八篇全棧論文，並在首爾 B714 展位展出。
6月30日週二Research
OpenAI 推出 GeneBench-Pro 基准测试，评估AI在基因组学等科学领域表现
OpenAI 发布 GeneBench-Pro，这是一个使用复杂真实世界数据集测试AI在基因组学、生物学和科学研究中性能的新基准。
6月24日週三Tools
Nous Research 為 Hermes Agent 技能系統新增 /learn，無需手寫 SKILL.md 即可捕獲工作流程為斜線命令
Nous Research 在 Hermes Agent 的技能系統中新增了 /learn 命令，能從本地目錄、文檔 URL、過往對話或筆記自動生成符合標準的 SKILL.md 文件，無需手寫或額外的攝取引擎。
6月24日週三Research
DFlash 推測解碼：並行生成整塊 Token，在 NVIDIA Blackwell 上實現最高 15 倍吞吐量提升
UC San Diego 的 DFlash 用輕量級區塊擴散模型取代自回歸草稿生成，在單次前向傳播中並行生成整塊 token，實現推測解碼加速。
6月24日週三Tools
OPFS + Pyodide 測試工具：瀏覽器中執行持久化 SQLite 檔案編輯
Simon Willison 開發了一個 OPFS + Pyodide 測試工具，探索 Datasette Lite 是否能透過瀏覽器的 Origin Private File System 編輯使用者本機的 SQLite 檔案。
6月23日週二Tools
Sony 的 AI 相機助理照片品質極差
Sony Xperia 1 VIII 的 AI Camera Assistant 拍攝出多年來最糟糕的照片。
6月21日週日Tools
Nous Research 為 Hermes Agent 新增 Blank Slate 模式，通過平台工具集 CLI 和禁用工具集固定工具集
Nous Research 為其開源 Hermes Agent 新增了 Blank Slate 設置模式，啟動時僅保留提供者、模型、檔案操作和終端，其餘功能需用戶選擇啟用。
6月19日週五Tools
Datasette Apps：在 Datasette 內部託管自訂 HTML 應用程式
Datasette 推出新插件 datasette-apps，讓使用者在 Datasette 實例中託管受沙盒限制的 HTML+JavaScript 應用程式。
6月18日週四Model/API
OpenAI發布LifeSciBench：以750項生物科學任務評測AI模型
OpenAI推出LifeSciBench基準，評估AI模型在實際生命科學研究中的表現。
6月18日週四Model/API
中國Z.ai實驗室發布GLM-5.2成為最強開源文本大型語言模型
中國Z.ai實驗室於6月16日開源發布了具有7530億參數的文本輸入大型語言模型GLM-5.2。
6月16日週二Agent
Hermes Agent 新增非同步子代理，委派工作不再阻塞父對話
Nous Research 的 Hermes Agent 新增非同步子代理功能，委派工具可生成背景代理，不再阻塞父對話。