📢 早安!Gate 廣場|4/5 熱議:#假期持币指南
🌿 踏青還是盯盤?#假期持币指南 帶你過個“放鬆感”長假!
春光正好,你是選擇在山間深呼吸,還是在 K 線裡找時機?在這個清明假期,曬出你的持幣態度,做個精神飽滿的交易員!
🎁 分享生活/交易感悟,抽 5 位幸運兒瓜分 $1,000 仓位體驗券!
💬 茶餘飯後聊聊:
1️⃣ 假期心態: 你是“關掉通知、徹底失聯”派,還是“每 30 分鐘必刷行情”派?
2️⃣ 懶人秘籍: 假期不想盯盤?分享你的“掛機”策略(定投/網格/理財)。
3️⃣ 四月展望: 假期過後,你最看好哪個幣種“春暖花開”?
分享你的假期姿態 👉 https://www.gate.com/post
📅 4/4 15:00 - 4/6 18:00 (UTC+8)
PyTorch TorchInductor 集成 CuteDSL 作為矩陣乘法自動調優後端
ME 新聞訊息,4 月 7 日(UTC+8),PyTorch 官方團隊近日宣布,已將 CuteDSL 作為第四個矩陣乘法自動調優後端整合到 TorchInductor 中。選擇該後端基於三個標準:不增加過多維護負擔、不拖慢編譯或基準測試時間,以及在目標工作負載上提供更好的效能。CuteDSL 由 NVIDIA 積極開發,提供最佳化的內核模板,其編譯時間與現有後端相當,且顯著優於需要完整 \nvcc\ 編譯的 CUTLASS C++ 路徑。該後端基於與 CUTLASS C++ 相同的抽象構建,採用 Python 編寫,編譯更快、維護更簡單,並已在 FP8 GEMM 與 Epilogue 融合方面證明具備強大效能。團隊專注於最佳化 GEMM(矩陣乘法),因為其在 Transformer 模型中佔據主要計算開銷。CuteDSL 透過提供手工最佳化的模板來生成底層程式碼,避免了從頭編寫內核的複雜性,並完全暴露執行緒與記憶體階層結構,支援架構特定功能。(來源:InFoQ)