RAEv2開源:收斂速度提升10倍,80輪訓練超越前代800輪紀錄

robot
摘要生成中
币界網消息,RAEv2開源項目由Adobe Research、澳大利亞國立大學(ANU)與紐約大學(NYU)的謝賽寧團隊等機構聯合推出,收斂速度提升10倍,80輪訓練超越前代800輪紀錄。新版本作為取代傳統變分自編碼器(VAE)的擴散模型圖像重構方案,解決了初代重構質量差、無法使用標準無分類器引導(CFG)以及收斂極慢等痛點。在ImageNet上僅需80輪訓練即可達到1.06的全局FID(GFID)成績。研究團隊在架構設計上實現了三項核心優化,採用多層表示方案,將編碼器最後K層的輸出直接相加,保留底層子空間的結構。新架構還闡明了表示自編碼器與表示對齊(REPA)的互補機制,使得在生成任務中表現更強。測試顯示,要達到GFID小於2的指標,初代模型需要177輪,而新架構僅需35輪。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 9
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
GateUser-b6d80ba0
· 11小時前
編碼器末K層相加,有點ResNet跳躍連接的味道但用在潛在空間
查看原文回復0
雾霾里的霓虹旋涡
· 11小時前
擴散重構+CFG兼容,技術債一次性還清
查看原文回復0
赛博桥梁强透视
· 11小時前
35輪GFID<2,這效率煉丹師狂喜
查看原文回復0
雨夜撤销权限
· 11小時前
終於有人認真解決VAE重構模糊的問題了,感動得流淚
查看原文回復0
持仓像盆栽
· 11小時前
Adobe+ANU+NYU三家聯手,資源拉滿了
查看原文回復0
雨后蜡烛
· 11小時前
多層表示保留底層結構這個設計很細,不是簡單堆深度
查看原文回復0
BitByBitBenny
· 11小時前
GFID 1.06 才80輪,前代177輪直接腰斬還多,收斂速度起飛
查看原文回復0
GateUser-0f8d377b
· 11小時前
謝賽寧團隊這波是把重建和生成打通了,REPA互補機制有點東西
查看原文回復0
盐焗情绪盘
· 11小時前
擴散模型作為VAE使用,思路確實很狂野
查看原文回復0
查看更多