📢 Gate 廣場 TradFi 交易分享挑戰上線!
晒单瓜分 $30,000 獎池,新人首帖 100% 中獎!
📌 參與方式:
帶 #TradFi交易分享挑战 發帖,滿足以下任一即可:
🔹 帶今日指定 TradFi 幣種標籤發帖交流。
🔹 完成單筆大於 $10U 的 TradFi CFD 交易並掛載交易卡片。
🏷️ 今日指定標籤:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 寵粉福利:
1️⃣ 卡片分享獎: 抽 50 人,每人送 $100 仓位體驗券!
2️⃣ 發帖榜單獎: 衝排行榜,贏 WCTC 限定 T 恤!
3️⃣ 新粉見面禮: 新人首次發帖,100% 領 $10 體驗券!
詳情:https://www.gate.com/announcements/article/51221
當今 AI 由 5 種硬體架構主導,每一種都在彈性、並行性和記憶體存取之間做出了不同的權衡。
CPU:通用計算設計,只有少量強大核心,擅長複雜邏輯、分支判斷和系統級任務。它有深層快取和片外 DRAM(主記憶體),適合操作系統、資料庫等,但對神經網路所需的重複矩陣乘法不太高效。
GPU:不是少數強大核心,而是成千上萬個較小核心同時執行相同指令(SIMD)。這種高度並行性完美匹配神經網路的數學運算,因此主導了 AI 訓練。
TPU(Google 設計):進一步專業化。核心是乘累加(MAC)單元組成的網格,資料以“波浪”形式流動——權重從一邊進入,激活值從另一邊進入,結果直接傳播,無需每次回寫記憶體。整個執行由編譯器控制(非硬體調度),專門為神經網路工作負載優化。
NPU(Neural Processing Unit):邊緣設備優化版。內建 Neural Compute Engine(大量 MAC 陣列 + 片上 SRAM),但使用低功耗系統記憶體而非高帶寬 HBM。目標是在手機、可穿戴設備、物聯網等場景下以單位瓦數的功耗運行推理(Apple Neural Engine、Intel NPU 都屬於此類)。
LPU(Language Processing Unit,由 Groq 推出):最新成員。完全移除片外記憶體,所有權重都放在片上 SRAM 中。執行完全確定性、由編譯器調度,無快取失效、無運行時調度開銷。代價是單晶片記憶體有限,需要數百個晶片互聯才能服務大型模型,但延遲優勢非常明顯。