Генеральный директор Abacus.AI Бинду Редди заявил, что Google планирует представить Gemini 3.2 Flash на своей конференции I/O 20 мая; при этом производительность достигнет 92% от GPT-5.5 на задачах кодирования и рассуждений, одновременно сократив расходы на инференс до одной-пятнадцатой — одной-двадцатой от показателей последнего. Большинство запросов будут обрабатываться с задержкой ниже 200 миллисекунд. Редди объяснил прорыв дистилляцией и техниками sparsity от Google: они сжимают флагманскую модель до уровня Flash без типичного провала производительности, обычно наблюдаемого при оптимизации моделей.
Related News
Эксперты: zk-доказательства дают DePIN’ам преимущество по мере роста спроса на доверие к ИИ
Google представила свой первый «AI-ноутбук»: Googlebook глубоко интегрирует Gemini и становится лучшим партнером для совместной работы
Google: крупные языковые модели используются для реальных атак, AI может обходить механизмы безопасности двухфакторной аутентификации