多模態與圖像

多模態模型與圖像生成：文生圖、擴散模型、視覺理解。

模型發布 API 與價格 MCP 與 Skills AI Coding 中國模型開源模型 Agent Infra / 成本 AI 影片 AI 語音 AI 晶片與硬體機器人與具身 AI 安全與對齊研究與論文企業與落地 AI 投資與融資政策與監管值得試用

7月3日週五Open Source
Interfaze 開源 diffusion-gemma-asr-small，基於擴散的多語言 ASR 模型
Interfaze 開源 diffusion-gemma-asr-small，這是一個使用擴散而非自回歸方式進行轉錄的多語言 ASR 模型。
7月3日週五Agent
阿里巴巴 Page Agent：透過自然語言操控網頁的 JavaScript GUI Agent
阿里巴巴推出 Page Agent，以客戶端 JavaScript 直接讀取 DOM 並執行自然語言指令，無需截圖或多模態模型。
7月1日週三Model/API
NVIDIA 發布 Nemotron-Labs-TwoTower 擴散語言模型
NVIDIA 發布了基於凍結自回歸主幹的開放權重擴散語言模型 Nemotron-Labs-TwoTower。
7月1日週三Model/API
Google 推出更快、更便宜的图像生成器 Nano Banana 2 Lite
Google 更新其图像生成器，使其更快、更便宜，对创作者更有用。
6月30日週二Tools
將 Amazon Nova 2 Lite 與 Claude 搭配，實現成本最佳化的文件處理
AWS 展示如何將 Amazon Nova 2 Lite 與 Anthropic 的 Claude Sonnet 4.6 組成兩模型管線，在 Amazon Bedrock 上以低成本大規模數位化掃描文件。
6月29日週一Open Source
EverOS：開源Markdown優先的AI代理記憶運行時，具混合BM25+向量檢索與自我進化技能
EverMind 開源了 EverOS，一個本地優先的記憶運行時，將AI代理記憶儲存為純Markdown，並透過SQLite和LanceDB索引，結合混合BM25+向量檢索、多模態攝取和自我進化技能。
6月27日週六Agent
Lyto：跨瀏覽器、工具與訊息的單一 AI 代理
Lyto 推出一個能跨瀏覽器、工具和訊息運作的統一 AI 代理。
6月27日週六Model/API
字節跳動擴散語言模型 iLLaDA 媲美 Qwen2.5
字節跳動與人民大學合作推出 8B 參數擴散語言模型 iLLaDA，基礎表現可與 Qwen2.5 匹配。
6月26日週五Tools
Cewsco：一體化AI助手，整合聊天、圖像、語音和市場數據
Cewsco 是一款整合聊天、圖像、語音和市場數據的全能 AI 助手。
6月24日週三Research
DFlash 推測解碼：並行生成整塊 Token，在 NVIDIA Blackwell 上實現最高 15 倍吞吐量提升
UC San Diego 的 DFlash 用輕量級區塊擴散模型取代自回歸草稿生成，在單次前向傳播中並行生成整塊 token，實現推測解碼加速。
6月23日週二Research
嵌入世界：大规模可搜索航空影像的多模态AI
AWS博客描述了使用多模态AI在Amazon Bedrock和OpenSearch Serverless上构建大规模可搜索航空影像系统的架构与评估。
6月18日週四Model/API
Midjourney推出首款超聲波全身掃描硬體產品
Midjourney發布基於超聲波技術的全身掃描硬體產品，從生成貓咪圖片轉向醫療影像。