模型基礎／大型語言模型發佈、能力、API 變動

最新動態 · MODELS

02:532Anthropic 發布 Claude Opus 4.7，著重於軟體工程與長程邏輯最佳化這項升級賦予開發者更具信任感的程式碼副駕駛，透過自我檢驗與一致性邏輯大幅降低長執行工作流程的開發阻力。Anthropic News · 10 分鐘前Claude Opus 4.7AnthropicSoftware Engineering模型 02:21·NVIDIA 技術文章：如何針對低精度訓練最佳化 Transformer 型號加速 Transformer 訓練不僅是效能最佳化，更是降低算力門檻、縮短研發週期並讓團隊訓練更大規模模型的關鍵。NVIDIA Technical Blog · 42 分鐘前NVIDIATransformer低精度訓練模型 02:1121Hugging Face 新釋出模型 zai-org/GLM-5.1-FP8提供具備 FP8 儲存特性與 MoE 架構的完整權重釋出，降低開發者進行模型部署與微調的門檻與成本。HF Hub — Zhipu/GLM · 52 分鐘前zai-org/GLM-5.1-FP8Hugging FaceFP8模型 01:532I/O 2026：歡迎邁入具代理能力的 Gemini 時代強調 Google 把重心放在「智慧體」的發展，賦予 AI 主動執行任務的能力，進一步推動產業自動化的應用層級。Google — The Keyword (Gemini) · 1 小時前GoogleGeminiGoogle I/O模型 01:522Google 介紹 Gemini Omni這項功能將更直觀的自然語言處理與內容編輯結合，讓開發者能更加彈性地使用 AI 進行創作。Google — The Keyword (Gemini) · 1 小時前GoogleGeminiOmni模型 01:062透過 Oracle Cloud 承諾存取 OpenAI 模型與 Codex此整合讓開發者能夠充分利用現有的企業雲資產，以更具成本效益且合規的方式匯入 OpenAI 的強大模型。OpenAI News · 1 小時前OpenAIOracleCodex模型 00:442Kimi 發布代號 K2.7-Code 模型代表 Moonshot AI 在開源程式碼生成與多模態能力的佈局。HF Hub — Moonshot/Kimi · 2 小時前Kimi-K2.7-CodeMoonshotHugging Face模型 00:3312Hugging Face 新增 DeepSeek-V4-Pro-Base 模型代表 DeepSeek-V4 系列的最新進展，為開發者提供了另一個額外的預訓練基礎模型，並展示了該社群對 FP8 機器學習技術的持續應用。HF Hub — DeepSeek · 2 小時前DeepSeekHugging FaceDeepSeek-V4模型 00:314DeepSeek 釋出 DeepSeek-OCR-2 模型為需要檔案解析或多語言視覺理解的開發者提供了另一個高效能的 OCR 端點選擇。HF Hub — DeepSeek · 2 小時前DeepSeekDeepSeek-OCR-2OCR模型 00:30·Subquadratic – Introducing SubQ 1.1 Small這個輕量級的新模型版本提供了一個更親民的選項，有助於開發者探索 Subquadratic 架構在部署層面的應用。Hacker News Front Page · 2 小時前SubQSubquadraticLLM模型 00:244Anthropic 發布 Claude Opus 4.8：提升運算效率與降低程式碼誤判對於依賴 AI Agent 處理複雜程式開發、法規分析等工作流，這不僅提升了效能與可信度，更透過減少模型自行放過錯誤的機率，降低了人工審查的負擔。Anthropic News · 2 小時前AnthropicClaude Opus 4.8Agent模型 00:232Anthropic 發布廣泛版 Claude Fable 5 與防禦專用版 Mythos 5透過雙軌策略提供業界最強的軟體工程與分析能力，同時在安全與許可權開放間取得平衡，推動生命科學防禦與研發領域的效率提升。Anthropic News · 2 小時前AnthropicClaude Fable 5Cybersecurity模型 23:552在 NVIDIA 上執行 DiffusionGemma，打造開發就緒且高吞吐量的文字生成體驗此最佳化能讓開發者更輕鬆地部署高效能的即時 AI 服務。NVIDIA Technical Blog · 3 小時前DiffusionGemmaGoogle DeepMindNVIDIA模型 23:532在 NVIDIA 加速基礎設施上部署 MiniMax M3 的長上下文推理與代理工作流程MiniMax M3 透過單一多模態系統解決了碎片化模型串接的工程痛點，有助於企業簡化架構並加快 AI 應用的迭代速度。NVIDIA Technical Blog · 3 小時前MiniMaxM3NVIDIA Blackwell模型 23:512NVIDIA 揭示 VLA 與 WAM 架構推動機器人再進化為具備視覺-語言-行動能力的機器人識別與世界模型的發展奠定架構基礎。NVIDIA Technical Blog · 3 小時前NVIDIAVLAWAM模型 23:442Hugging Face 新釋出模型 zai-org/RealVideo這款採用 MIT 授權的開源模型提供 14B 級別的視訊生成能力，適合開發者與研究人員探索通用視訊處理的應用。HF Hub — Zhipu/GLM · 3 小時前zai-org/RealVideoWan2.2-S2V-14Bany-to-any模型 23:33·重點 12 大 Google I/O 2026 亮點：Gemini Omni 與 3.5 Flash這些更新反映了谷歌在多模態與即時運算領域的最新佈局，將改變開發者對於 AI 應用程式的設計方向。Google — The Keyword (Gemini) · 3 小時前GoogleI/O 2026Gemini模型 23:292Google I/O 展現 Gemini Omni 與 Gemini 3.5 的九支示範影片透過實際演示，提供開發者與使用者直觀見證最新版模型的視覺理解與推理軟實力。Google — The Keyword (Gemini) · 3 小時前GoogleGemini 3.5Gemini Omni模型 22:523NVIDIA 加速 Google DeepMind DiffusionGemma 模型於本地 AI 執行這項技術突破展示瞭如何在 GPU 上利用計算優勢來大幅降低延遲，為本地低延遲的單使用者應用程式帶來新的部署選擇。NVIDIA Blog · 4 小時前DiffusionGemmaGoogle DeepMindNVIDIA模型 22:302Hugging Face 新增角色動畫影像轉影片模型 zai-org/SCAIL-2儘管目前下載量為零，但獲得高達 186 個點贊，顯示該模型在角色動畫影片生成領域受到社群矚目。HF Hub — Zhipu/GLM · 4 小時前zai-orgSCAIL-2arxiv模型 22:012DeepSeek 在 Hugging Face 上發布 DeepSeek-V4-Flash-Base 模型提供開發者可直接在 HF 生態中下載的快速推理基礎模型，有利於推動低延遲應用的開發。HF Hub — DeepSeek · 5 小時前DeepSeekDeepSeek-V4HuggingFace模型 22:014DeepSeek 發表 V4 Flash 模型，支援註冊於 Hugging Face為開發者提供具備高效能與迷你的 V4 推理方案，且符合開源授權。HF Hub — DeepSeek · 5 小時前DeepSeekV48-bit模型 20:40·Ling 和 Ring 2.6 技術報告：高效且即時的兆引數代理智慧這提供了建立高效、可擴充套件開源代理智慧系統的實作路徑與檢查點。Hugging Face Daily Papers · 6 小時前Ling-and-RingAgentic AIKPop模型 19:50·阿里的天工實驗室推出首個機器人 AI 模型系列 Qwen Robot Suite，進行試點測試這項發布標誌著業界將 AI 發展重心從純文字對話推向具身智慧的新階段，為開發者在實體機器人應用上帶來嶄新的技術工具與範式。Techmeme · 7 小時前Alibaba天工實驗室Qwen Robot Suite模型 16:40·大曉機器人獲數億美元融資，創辦人揭開具身智慧產業的割裂現況該報導重點揭示了具身智慧從技術原型邁向實際商業化時，面臨的資料生態與產業整合難題，特別是大曉以「世界模型」驅動 B 端場景的作法，可能提供業界構建閉環商業生態的新參考。36氪 · 10 小時前大曉機器人Kairos 3.0世界模型模型 15:02·三連發！阿里釋出首個具身大模型Qwen-Robot系列此舉標誌著「Qwen」生態系統正式進軍具身 AI 應用領域，拓展了模型在機器人領域的商業價值。量子位 QbitAI · 12 小時前阿里QwenQwen-Robot模型 12:21·智源大會 | 天工 AI 重新定義世界模型，公佈 Matrix-Game 3.5 最新技術突破宣佈新的技術突破與世界模型的願景，展現了該公司在通用 AI 路線上的持續投入與野心。量子位 QbitAI · 14 小時前天工 AIMatrix-Game崑崙萬維模型 12:03·DreamX-World 1.0：通用型互動世界模型DreamX-World 1.0 在長期影片生成與攝影機控制的評分上取得領先優勢，展示了在少步驟自回歸世界模型應用中，結合因果強制與記憶條件技術的強大效能。Hugging Face Daily Papers · 15 小時前DreamX-Worldworld modelvideo generation模型 12:01·VibeThinker-3B：探索小型語言模型中可驗證推理的前沿提出「引數壓縮覆蓋假說」，證明緊湊模型可透過精煉推理核心能力，達到與大型旗艦模型相當的前沿水準。Hugging Face Daily Papers · 15 小時前VibeThinker-3BReasoningDeepSeek模型 12:01·Nemotron 3 Ultra：開源、高效能混合 MoE 與 Mamba-Transformer 模型為長時間執行的自主代理任務提供了兼具高推理吞吐量與開源生態的強大模型解決方案。Hugging Face Daily Papers · 15 小時前NVIDIAMambaMixture-of-Experts模型 06:01·Anthropic 修訂隱私權政策，Claude 消費者帳號將面臨身分核驗身分驗證的普及將大幅影響開發者與一般使用者的隱私風險，同時迫使 AI 平臺在應對威權國家盜用模型的威脅下，尋求更嚴格的地區防堵機制。The Register · 21 小時前AnthropicClaudePrivacy Policy模型 06:01·專家指出 Anthropic Fable 5 遭禁非因惡意攻擊，僅因其回應「Fix this code」此事件顯示政府將防禦性漏洞修補工具誤認為軍武產物可能削弱美國在 AI 時代的網安防禦能力，導致在面對日益狡詐的進攻者時處於劣勢。The Register · 21 小時前AnthropicFable 5US Government模型 02:32·ExLlamaV2 新增 Qwen3 與 Qwen3MoE 支援這項更新為 Qwen 系列模型提供了最佳化的本地推論途徑，讓開發者能更輕鬆地在受限環境中部署最新的技術。ExLlamaV2 Releases · 1 天前ExLlamaV2Qwen3Qwen3MoE模型 01:527Hugging Face 新模型發布：Qwen/SAE-Res-Qwen3.5-35B-A3B-Base-W128K-L0_100這個工具賦予開發者與研究人員深入剖析大型語言模型內部世界中能力，推動 AI 系統可解釋性的發展。HF Hub — Qwen · 1 天前QwenSAESparse Autoencoder模型 00:52·4步出聲，單卡僅0.24秒！Noiz AI聯合港科大與清華，開源音訊生成大模型提供了一個具備高效率與精確控制的開源工具，有助於加快音訊合成應用的開發與研究程序。量子位 QbitAI · 1 天前Noiz AI港科大清華模型 00:32·Kimi-Linear-48B-A3B-Instruct 模型發布為開發者提供一個具備實戰意義、MIT 授權的對話模型參考範式。HF Hub — Moonshot/Kimi · 1 天前moonshotaiHugging FaceKimi-Linear-48B-A3B-Instruct模型 00:31·Moonshot AI 釋出 Kimi-Linear-48B-A3B-Base 模型為 Kimi 生態提供具備強大對話與程式碼能力的開源模型權重選擇。HF Hub — Moonshot/Kimi · 1 天前MoonshotKimiHugging Face模型 00:21·Gemini 3.5 Live Translate 登場，帶來近乎即時的自然口語翻譯功能透過整合在核心生態系統中，開發者與使用者能在大規模通訊與協作平臺中獲得更可靠、無障礙的即時翻譯能力。Google — The Keyword (Gemini) · 1 天前Gemini 3.5Google AI StudioGoogle Translate模型 00:12·智源研究院王仲遠：世界模型是未來，將成為機器人的真正大腦定義了世界模型的技術標準（如預測「下一物理狀態」），將決定具身智慧能否從狹窄場景走向通用物理世界的發展路徑。36氪 · 1 天前智源研究院世界模型具身智慧模型 00:11·智譜 AI 推出最新一代旗艦模型 GLM-5.2，遵循 MIT 協議開源開放 MIT 協議與長上下文能力的強化，有利於降低開發者應用門檻並拓展更多部署場景。36氪 · 1 天前智譜 AIGLM-5.2長上下文模型 00:04·Apple 發布 Siri AI，Anthropic 推出 Fable 5 模型公測Apple 的實績發布強化了 iPhone 在新計算世代的核心地位，而 Anthropic 動態調整安全邊界的策略，也反映了產業在監管與商業壓力下的應變之道。Stratechery · 1 天前AppleSiri AIAnthropic模型 00:00·Anthropic 因出口管制問題，停止 Fable 5 與 Mythos 5 存取許可權此事件提醒開發者與企業必須高度重視地緣政治風險與跨境監管合規，成為 AI 產業佈局的重要警示。ServeTheHome · 1 天前AnthropicFable 5Mythos 5模型 22:52·Mistral AI 推出「物理 AI」新技術：工程加速的基礎讓 AI 從純文本領域擴充套件至物理系統模擬與硬體設計，協助工程師大幅提升開發效率並解決複雜的實體問題。Mistral AI · 1 天前Mistral AIphysics AIengineering acceleration模型 22:12·DeepSeek-V4 上市後 43 天的效能追蹤與模組最佳化分析展示了硬體廠商與開源生態結合後，對於提升大型語言模型推理效率的實際影響力。SemiAnalysis · 1 天前DeepSeek-v4InferenceXNVIDIA模型 21:50·Qwen 釋出影像評測模型 Qwen/Qwen-Image-Bench提供了一個可自動化評估影像生成效果的工具，有助於開發者提升模型訓練與評測的效率。HF Hub — Qwen · 1 天前QwenHugging Faceimage-generation模型