وفقًا لـ Beating، كشفت Xiaomi عن تقنيات تحسين أساسية لواجهة MiMo-V2.5 API بعد خفضات سعرية حديثة جاءت بالتزامن مع DeepSeek. يحافظ محرك الاستدلال عالي التحميل لدى الشركة على الربحية عبر بنية انتباه هجينة وتحسين ذاكرة KV الهرمية.
حقق إطار الاستدلال لدى Xiaomi خفضًا بنسبة 80% في تكاليف ذاكرة التخزين المؤقت من خلال تطبيق تحسين هرمي لانتباه نافذة التمرير (SWA)، بما أدى إلى زيادة سعة الرموز بمقدار 5 أضعاف. ينفّذ نموذج MiMo-V2.5-Pro المكوّن من 70 طبقة، باستخدام نسبة تفرّق 1:7 بين طبقات الانتباه العام (GA) وSWA، حسابات التمهيد (prefill) تعادل ما يعادل نموذج GQA عالمي تقليدي من 10 طبقات، ما يخفض تكاليف الاستدلال بشكل كبير.