Microsoft 於週二的年度 Build 活動中揭露七款全新 AI 模型,宣稱在盲測與影像編輯基準測試中,其表現優於 Anthropic 的 Claude Sonnet 4.6 以及 Google 的 Nano Banana 2。此次發布代表微軟的努力,欲讓自己成為前沿 AI 開發者,而不只是 OpenAI 最大的支持者與基礎設施供應商。此公告亦逢領先 AI 開發者之間的競爭持續加劇,因 Anthropic 與 Google 近期相繼推出自家旗艦模型。
MAI-Thinking-1 在盲測中超越 Claude Sonnet 4.6
根據微軟 AI 執行長 Mustafa Suleyman 的說法,MAI-Thinking-1 為微軟的旗艦文字基礎模型,在由獨立評估者進行的盲測中,相較於 Anthropic 的 Claude Sonnet 4.6 更受青睞。該模型在 AIME 2025 的得分為 97%,這是一項衡量進階問題解決與推理能力的指標。Suleyman 表示,該模型的 SWE Bench Pro 成績讓它「在最艱難的程式碼基準測試之一上,與 Opus 4.6 並駕齊驅」。微軟也宣稱 MAI「交出了最高的勝率,在品質上超越 GPT-5.5,同時成本降低 10 倍。」
「今天很興奮要宣布七款全新的世界級 MAI 模型,」Suleyman 在 X 上寫道。「它們代表我們所認為的 AI 新時代:讓你保持掌控並站上前沿。」
微軟推出六款額外 AI 模型,涵蓋程式碼、影像、語音類別
微軟推出 MAI-Code-1-Flash,這是一款為 GitHub Copilot 與 Visual Studio Code 打造的輕量級程式碼模型。該公司也揭露 MAI-Image-2.5 及其 Flash 版本,微軟表示其在影像編輯基準測試上優於 Google 的 Nano Banana Pro。MAI Transcribe-1.5(支援 43 種語言的轉錄模型)以及 MAI-Voice-2(可在 15 種語言中產出生動自然的語音,並能根據短音訊樣本中的說話者特徵進行調適的語音生成模型)也一併宣布。
「這是科技領域的非凡時刻。用於訓練前沿模型的算力已增加了 10 億倍,」Suleyman 在一篇宣布新模型的部落格文章中表示。「現在我們預期在接下來三年還會再增加 1000 倍;而這也意味著更進階的能力,並將持續推出更有效的 AI。」
Anthropic 與 Google 發布相互競爭的模型
上週,Anthropic 宣布推出 Opus 4.8,該公司表示其在基準測試中更快、更聰明,且附帶新功能。週二,Anthropic 則宣布擴大其 Project Glasswing,讓 150 家公司可使用其聚焦資安的 Mythos 模型。在 5 月的 Google I/O 上,Google 揭露 Gemini Omni,這是一款多模態 AI 模型,將 Gemini 與 Veo、Nano Banana 以及 Genie 媒體生成模型整合;同時還有 Gemini Spark,一款雲端式 AI 代理,旨在管理跨應用程式與工作流程的任務。
「開發者與企業一直在呼喚能依他們的條件、也在他們的掌控之下交付成果的 AI,」Suleyman 寫道。「我們將這視為朝向實現該目標的一大步。」
常見問題
微軟在週二的 Build 活動中宣布了什麼?
微軟在 Build 活動中揭露七款全新 AI 模型,包括 MAI-Thinking-1、MAI-Code-1-Flash、MAI-Image-2.5、MAI Transcribe-1.5 與 MAI-Voice-2,並宣稱其在多項基準測試中優於 Anthropic 的 Claude Sonnet 4.6 以及 Google 的 Nano Banana 2。
MAI-Thinking-1 在基準測試中的表現如何?
根據微軟 AI 執行長 Mustafa Suleyman 的說法,MAI-Thinking-1 在 AIME 2025 的得分為 97%,且在由獨立評估者進行的盲測中,其表現優於 Claude Sonnet 4.6。