Google 的 Vision Banana:統一的視覺模型在分割與 3D 幾何方面表現優於任務專用模型

Gate News 訊息,4 月 23 日——Google 研究人員(包含 He Kaiming 和 Xie Saining)發表了一篇論文,介紹 Vision Banana:一款通用型視覺理解模型。該模型是透過對該公司的 Nano Banana Pro (Gemini 3 Pro Image) 影像生成模型進行輕量指令微調所打造。這項關鍵創新將所有視覺任務的輸出統一為 RGB 影像,使得能夠在不使用任務特定架構或損失函數的情況下,透過影像生成來完成分割、深度估計與表面法向預測。

在語意分割方面,Vision Banana 在 Cityscapes 上相較專用模型 SAM 3 領先 4.7 個百分點;在指代表達式分割(referring expression segmentation)方面,它超越了 SAM 3 Agent。不過在實例分割(instance segmentation)上,它落後於 SAM 3。對於 3D 任務,度量深度估計在四個標準資料集上達到 0.929 的平均準確率,超過 Depth Anything V3 的 0.918。推論時僅使用合成資料,沒有任何真實深度資訊或相機參數。表面法向估計在三個室內基準測試中取得了最先進的結果。

微調涉及將極少量的視覺任務資料混入原始影像生成訓練,同時保留模型的生成能力——在生成品質測試中的表現與原始 Nano Banana Pro 相同。論文提出:視覺中的影像生成預訓練與語言中的文字生成預訓練相類似;模型在生成過程中學習用於影像理解的內部表徵,而指令微調只是釋放這種能力。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

前 Qualcomm 高管 Alex Katouzian 於 5 月 4 日加入 Intel,出任客戶端運算與實體 AI 執行副總裁(EVP)

Intel 於 5 月 4 日宣布,曾在 Qualcomm 任職的資深高管 Alex Katouzian 已加入該公司,擔任執行副總裁兼 Client Computing and Physical AI Group 總經理,並直接向執行長 Chen Lixu 彙報。Katouzian 在 Qualcomm 待了 25 年,最近一次職務為 e

GateNews31分鐘前

那斯達克上市的 K Wave Media 拋棄比特幣金庫,並將 $485M 重新導向至 AI

那斯達克上市公司 K Wave Media 已放棄其比特幣金庫計畫,並將 4.85 億美元改投人工智慧投資,距離為原本的比特幣計畫募資 5 億美元未滿一年

GateNews34分鐘前

Nova Intelligence 完成 3150萬美元 A 輪融資,由 Chemistry 牽頭,時間為 5 月 5 日

根據《Fortune》報導,AI 代理平台 Nova Intelligence 於 5 月 5 日完成 3,150 萬美元的 A 輪融資,該輪由 Chemistry 領投。Accel、Conviction 和 SAP.io 也參與了本輪融資。 Nova 的平台可分析、現代化,並為薪資、供應鏈等生成自訂程式碼,並

GateNews48分鐘前

Cipher Digital 確保 $200M 信貸額度以擴展 AI 與 HPC 資料中心

根據 Globenewswire,Cipher Digital(納斯達克上市的比特幣礦商)從全球金融機構取得 2 億美元的循環信貸額度,以提升流動性並加速其 AI 與高性能運算(HPC)資料中心平台的擴張。該公司公布第 1 季

GateNews1小時前

Quantum Leap 完成 $200M 上市,尋求區塊鏈與 AI 收購

根據 Businesswire,5 月 5 日,特殊目的收購公司 Quantum Leap 完成了 2 億美元的首次公開募股(IPO),並以代號 QLEPU 開始在紐約證券交易所交易。該公司計劃將募集資金用於尋求收購及併購交易 i

GateNews1小時前

Google、Microsoft、xAI 同意在 AI 模型公開發布前,讓美國政府存取

根據美國商務部週二發布的一份聲明,Alphabet 的 Google、Microsoft 以及 xAI 已同意允許政府在更早階段就其 AI 模型進行存取,以便在發布前進行審查與安全評估。商務部的 AI 標準與創新中心將負責辦理該

GateNews2小時前
留言
0/400
暫無留言