📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
当今 AI 由 5 种硬件架构主导,每一种都在灵活性、并行性和内存访问之间做了不同的权衡。
CPU:通用计算设计,只有少量强大核心,擅长复杂逻辑、分支判断和系统级任务。它有深层缓存和片外 DRAM(主内存),适合操作系统、数据库等,但对神经网络所需的重复矩阵乘法不太高效。
GPU:不是少数强大核心,而是成千上万个较小核心同时执行相同指令(SIMD)。这种高度并行性完美匹配神经网络的数学运算,因此主导了 AI 训练。
TPU(Google 设计):进一步专业化。核心是乘累加(MAC)单元组成的网格,数据以“波浪”形式流动——权重从一边进入,激活值从另一边进入,结果直接传播,无需每次回写内存。整个执行由编译器控制(非硬件调度),专门为神经网络工作负载优化。
NPU(Neural Processing Unit):边缘设备优化版。内置 Neural Compute Engine(大量 MAC 阵列 + 片上 SRAM),但使用低功耗系统内存而非高带宽 HBM。目标是在手机、可穿戴设备、IoT 等场景下以个位数瓦特功耗运行推理(Apple Neural Engine、Intel NPU 都属于此类)。
LPU(Language Processing Unit,由 Groq 推出):最新成员。完全移除片外内存,所有权重都放在片上 SRAM 中。执行完全确定性、由编译器调度,无缓存缺失、无运行时调度开销。代价是单芯片内存有限,需要数百个芯片互联才能服务大型模型,但延迟优势非常明显。