多模態與圖像
多模態模型與圖像生成:文生圖、擴散模型、視覺理解。
7月3日週五Open Source
Interfaze 開源 diffusion-gemma-asr-small,基於擴散的多語言 ASR 模型Interfaze 開源 diffusion-gemma-asr-small,這是一個使用擴散而非自回歸方式進行轉錄的多語言 ASR 模型。
7月3日週五Agent
阿里巴巴 Page Agent:透過自然語言操控網頁的 JavaScript GUI Agent阿里巴巴推出 Page Agent,以客戶端 JavaScript 直接讀取 DOM 並執行自然語言指令,無需截圖或多模態模型。
7月1日週三Model/API
NVIDIA 發布 Nemotron-Labs-TwoTower 擴散語言模型NVIDIA 發布了基於凍結自回歸主幹的開放權重擴散語言模型 Nemotron-Labs-TwoTower。
7月1日週三Model/API
Google 推出更快、更便宜的图像生成器 Nano Banana 2 LiteGoogle 更新其图像生成器,使其更快、更便宜,对创作者更有用。
6月30日週二Tools
將 Amazon Nova 2 Lite 與 Claude 搭配,實現成本最佳化的文件處理AWS 展示如何將 Amazon Nova 2 Lite 與 Anthropic 的 Claude Sonnet 4.6 組成兩模型管線,在 Amazon Bedrock 上以低成本大規模數位化掃描文件。
6月29日週一Open Source
EverOS:開源Markdown優先的AI代理記憶運行時,具混合BM25+向量檢索與自我進化技能EverMind 開源了 EverOS,一個本地優先的記憶運行時,將AI代理記憶儲存為純Markdown,並透過SQLite和LanceDB索引,結合混合BM25+向量檢索、多模態攝取和自我進化技能。
6月27日週六Agent
Lyto:跨瀏覽器、工具與訊息的單一 AI 代理Lyto 推出一個能跨瀏覽器、工具和訊息運作的統一 AI 代理。
6月27日週六Model/API
字節跳動擴散語言模型 iLLaDA 媲美 Qwen2.5字節跳動與人民大學合作推出 8B 參數擴散語言模型 iLLaDA,基礎表現可與 Qwen2.5 匹配。
6月26日週五Tools
Cewsco:一體化AI助手,整合聊天、圖像、語音和市場數據Cewsco 是一款整合聊天、圖像、語音和市場數據的全能 AI 助手。
6月24日週三Research
DFlash 推測解碼:並行生成整塊 Token,在 NVIDIA Blackwell 上實現最高 15 倍吞吐量提升UC San Diego 的 DFlash 用輕量級區塊擴散模型取代自回歸草稿生成,在單次前向傳播中並行生成整塊 token,實現推測解碼加速。
6月23日週二Research
嵌入世界:大规模可搜索航空影像的多模态AIAWS博客描述了使用多模态AI在Amazon Bedrock和OpenSearch Serverless上构建大规模可搜索航空影像系统的架构与评估。
6月18日週四Model/API
Midjourney推出首款超聲波全身掃描硬體產品Midjourney發布基於超聲波技術的全身掃描硬體產品,從生成貓咪圖片轉向醫療影像。