Infra / 成本

推理部署、GPU 與算力、延遲吞吐、量化與 token 成本等基礎設施動態。

模型發布 API 與價格 MCP 與 Skills AI Coding 中國模型開源模型 Agent 多模態與圖像 AI 影片 AI 語音 AI 晶片與硬體機器人與具身 AI 安全與對齊研究與論文企業與落地 AI 投資與融資政策與監管值得試用

7月3日週五Open Source
Interfaze 開源 diffusion-gemma-asr-small，基於擴散的多語言 ASR 模型
Interfaze 開源 diffusion-gemma-asr-small，這是一個使用擴散而非自回歸方式進行轉錄的多語言 ASR 模型。
7月3日週五Agent
阿里巴巴 Page Agent：透過自然語言操控網頁的 JavaScript GUI Agent
阿里巴巴推出 Page Agent，以客戶端 JavaScript 直接讀取 DOM 並執行自然語言指令，無需截圖或多模態模型。
7月3日週五Agent
微軟斥資25億美元成立「Frontier Company」，於企業客戶駐場6,000名AI工程師
微軟投入25億美元成立新部門「Frontier Company」，直接派駐6,000名工程師到企業客戶端，以將AI整合至核心流程，確保可量測的ROI。
7月2日週四Tools
Meta 考慮推出雲端運算業務，從 AI 支出中獲利
Meta 正考慮推出雲端運算業務，以從其 AI 支出中產生收入。
7月2日週四Model/API
消息称美团内部全面限用豆包大模型
消息称美团内部全面限用豆包大模型。
7月2日週四Tools
使用Lift將研究PDF轉換為結構化JSON：可控、架構引導的欄位級評估
本教程圍繞Lift構建了一個完整的PDF到結構化資料的工作流程，專注於可控評估而非一次性展示。
7月2日週四Model/API
Anthropic 在美國出口管制解除後於 7 月 1 日重新部署 Claude Fable 5，並新增網路安全分類器
Anthropic 在美國出口管制解除後，於 7 月 1 日重新部署 Claude Fable 5，並新增一個安全分類器。
7月2日週四Tools
Cursor 企業內部署 AI 代理策略：前線工程師建立軟體工廠
Cursor 的前線部署工程師團隊幫助組織實現 AI 代理，本質上是建立軟體工廠。
7月2日週四Research
HippoRAG：使用 Amazon Bedrock、Neptune 和個人化 PageRank 實現神經生物學啟發的 RAG
AWS 展示了如何使用 Amazon Bedrock、Neptune 和個人化 PageRank 實現神經生物學啟發的 RAG 系統 HippoRAG。
7月1日週三Tools
Meta 計劃將多餘 AI 算力變現，進軍雲端基礎設施市場
Meta 正開發雲端基礎設施業務，計劃出售 AI 算力與模型，與 AWS、Google Cloud、Azure 競爭。
7月1日週三Model/API
Claude Sonnet 5 隱藏漲價：每任務 token 消耗增 40%，實際成本翻倍
Claude Sonnet 5 雖在部分任務上超越 Opus 4.8，但每任務 token 消耗增加約 40%，導致實際成本幾乎翻倍，延續 Anthropic 隱藏漲價的模式。
7月1日週三Research
BAIR 2026 博士畢業生風采：AI 前沿研究者群像
BAIR 實驗室慶祝 2026 年博士畢業生，其研究涵蓋機器人、大語言模型、AI 安全等領域。
7月1日週三Model/API
NVIDIA 發布 Nemotron-Labs-TwoTower 擴散語言模型
NVIDIA 發布了基於凍結自回歸主幹的開放權重擴散語言模型 Nemotron-Labs-TwoTower。
7月1日週三Model/API
特朗普解除Anthropic的Mythos和Fable模型限制
特朗普解除了对Anthropic的Mythos和Fable模型的限制，Anthropic将于7月1日开始恢复Fable的访问。
7月1日週三Tools
Ollama v0.31.1 在 Apple Silicon 上利用多令牌預測使 Gemma 4 令牌生成速度提升近 90%
Ollama v0.31.1 在 Apple Silicon 上利用多令牌預測技術顯著提升 Gemma 4 的推理速度。
7月1日週三Model/API
Anthropic Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8：代理编码基准、API定价与性价比对比
Anthropic 的 Claude Sonnet 5 在代理编码任务上缩小了与 Opus 4.8 的差距，同时保持更低的 Sonnet 级别定价。
7月1日週三Model/API
Claude Sonnet 5 发布：新 tokenizer 提效但涨价 30%
Anthropic 发布 Claude Sonnet 5，性能接近 Opus 4.8 但价格更低，然而新 tokenizer 导致实际成本提升约 30%。
7月1日週三Model/API
Google 推出更快、更便宜的图像生成器 Nano Banana 2 Lite
Google 更新其图像生成器，使其更快、更便宜，对创作者更有用。
7月1日週三Model/API
Nvidia 競爭對手 Etched 以 50 億美元估值達成 10 億美元 AI 晶片銷售
Nvidia 競爭對手 Etched 表示，其由自家晶片驅動的推理系統已簽訂 10 億美元合約，公司估值達 50 億美元。
7月1日週三Tools
Anthropic 推出專為研究人員設計的 AI 工作區 Claude Science
Anthropic 發布了 Claude Science，這是一個專為研究人員打造的 AI 工作台。
7月1日週三Model/API
Anthropic 推出更便宜的 Claude Sonnet 5 以運行代理
Anthropic 發布 Claude Sonnet 5，作為運行代理的更便宜方式。
7月1日週三Model/API
Anthropic 發布 Claude Sonnet 5，作為運行代理的更便宜方式
Anthropic 推出 Claude Sonnet 5，具備更強代理能力、更低價格和改進的安全性，定位為 Opus、GPT-5.5 和 Gemini Pro 的更便宜替代方案。
7月1日週三Model/API
OpenAI 據報將訪客 ChatGPT 使用者回應成本削減逾半
OpenAI 將其 AI 模型推論成本削減逾半，並應用於 ChatGPT，使所需的 Nvidia GPU 數量有時降至僅數百個。
7月1日週三Agent
在 Amazon Bedrock AgentCore 上使用 AG-UI 协议构建生成式 UI
本文介绍如何使用 AG-UI 协议在 Amazon Bedrock AgentCore 上构建交互式代理前端。
7月1日週三Tools
使用托管授权简化多账户访问 Amazon Bedrock 模型
AWS 推出 Amazon Bedrock 托管授权功能，允许从中央账户订阅一次并将模型访问权限分发给整个组织。
7月1日週三Tools
使用 Amazon Bedrock 和 LLM 閘道實踐韌性模式
AWS 部落格介紹五種韌性模式，從原生 Amazon Bedrock 功能到基於 LLM 閘道的多模型編排，以解決配額耗盡、可用性最大化及多租戶干擾等問題。
6月30日週二Research
利用合成資料與微調提升視覺AI代理準確度的三種工作流程
NVIDIA 介紹三種透過合成資料與微調提升視覺 AI 代理準確度的工作流程。
6月30日週二Tools
將 Amazon Nova 2 Lite 與 Claude 搭配，實現成本最佳化的文件處理
AWS 展示如何將 Amazon Nova 2 Lite 與 Anthropic 的 Claude Sonnet 4.6 組成兩模型管線，在 Amazon Bedrock 上以低成本大規模數位化掃描文件。
6月29日週一Tools
惠普與OpenAI擴大戰略合作，推動企業AI部署
惠普與OpenAI擴大Frontier戰略合作，將AI應用於客戶體驗、軟體開發和企業運營。
6月28日週日Model/API
Liquid AI 推出最小模型 LFM2.5-230M，支援多個推理框架與端側推理
Liquid AI 發布了其最小模型 LFM2.5-230M，支援 llama.cpp、MLX、vLLM、SGLang 和 ONNX 等推理框架，可在 Galaxy S25 Ultra 上達到 213 tok/s 的推理速度。
6月27日週六Model/API
Anthropic 獲美國批准重新部署 Claude Mythos 5
Anthropic 獲得美國批准，可重新將 Claude Mythos 5 部署給運行關鍵基礎設施的組織。
6月27日週六Model/API
OpenAI 发布 GPT-5.6 Sol/Terra/Luna，仅限信任合作伙伴
OpenAI 在同一日向 OAI 和 ANT 发布了分层的 GPT-5.6 Sol/Terra/Luna 模型。
6月27日週六Model/API
川普政府釋出 Anthropic Mythos，供超 100 家美國公司與機構使用
川普政府授權超過 100 家美國公司與政府機構使用 Anthropic Mythos 5，包含非美國籍員工。
6月27日週六Model/API
Anthropic 獲准向超過 100 所美國機構發布 Claude Mythos 5
Anthropic 獲得批准，向超過 100 所美國機構發布 Claude Mythos 5。
6月27日週六Tools
MRAgent 代理記憶系統將 Token 用量降低 27 倍
MRAgent 通過優化 AI 代理記憶管理，將 Token 消耗最多減少 27 倍。
6月27日週六Research
前沿模型发布延迟侵蚀盈利窗口
前沿模型发布延迟正侵蚀实验室在数月内收回巨额训练成本的短暂盈利窗口。
6月27日週六Tools
LLM 學習曲線的類比：如同管理職務的學習曲線
Timothy B. Lee 認為 LLM 並非沒有學習曲線，並將此觀點比喻為管理職務的學習曲線。
6月27日週六Agent
Perplexity 推出 Computer for Counsel：面向法律工作流程的多模型 Agent 层
Perplexity 发布 Computer for Counsel，将 Perplexity Computer 扩展至法律团队，可路由 20 多个模型并生成可验证的引用输出。
6月27日週六Model/API
OpenAI 預覽 GPT-5.6 系列：分層模型 Sol、Terra、Luna 與全新推理模式及有限存取
OpenAI 推出 GPT-5.6 系列，包含 Sol、Terra、Luna 分層模型與 max/ultra 推理模式，目前僅限有限存取。
6月27日週六Research
兩千人嘗試入侵AI助手，六千次攻擊皆失敗
Fernando Irarrázaval 舉辦挑戰賽，測試是否能透過電子郵件誘騙OpenClaw測試實例洩露秘密，結果六千次嘗試均未成功。