Генеральный директор MiniMax Intelligence Ли Дахай заявил на конференции 2026 Beijing Zhiyuan, что агентная технология требует взвешенного подхода, несмотря на быстрое развитие. Общаясь с Pengpai News и другими СМИ, Ли пояснил, что ожидания общества для агентов с нулевыми ошибками превышают то, что текущая траектория технического развития может обеспечить, поскольку технологии еще нужно время на созревание. Он назвал 2025 год первым годом для агентов, ожидая взрывной рост, который глубоко повлияет на жизнь общества, при этом подчеркнув необходимость спокойной оценки текущих технических возможностей в сфере AI-агентов.
Ли Дахай признал, что интеграция больших моделей и агентной технологии развивается очень быстро, и некоторые сценарии уже находят применение на практике. Говоря об ограничениях агентов, Ли прямо сказал: «Проблемы везде». Он пояснил, что «эволюция модельной и Agent-технологии происходит очень быстро»: «возможно, сегодня у какой-то работы есть 10% частоты ошибок, а в следующем месяце частота ошибок падает до 1% — быстрая эволюция стала базовой тенденцией».
Ли Дахай напрямую оспорил распространенное в индустрии убеждение, что «получение хороших малых моделей обязательно должно происходить за счет дистилляции ультра-масштабных базовых моделей». Он назвал это «когнитивным заблуждением». Он объяснил: «За дистилляцией стоит очень конкретная предпосылка: сама дистиллируемая сущность — должна быть хорошей моделью. Дистилляция по сути выглядит так: для компаний, которые не обладают возможностями самостоятельно разрабатывать базовые модели, но хотят выходить на прикладные сценарии, они берут существующие маломасштабные базовые модели и получают сценарные возможности посредством дообучения. При этом они действительно могут использовать другие большие модели для синтеза данных, чтобы малые модели приобрели соответствующие способности». Ли заявил, что это парадигма всей подготовки больших моделей, а не только малых.
Ли Дахай раскрыл: «С этого года, поскольку индустрия в целом сместила инференс на отечественные чипы, мы тоже постепенно переносим тренировку на отечественные чипы и отечественные кластеры». Он выделил два параллельных пути для улучшения экосистемы отечественных вычислений: первый — нисходящая доработка снизу вверх, когда компании, работающие с большими моделями, постепенно улучшают экосистему за счет собственных практик обучения, «как смачивать каменную плиту бит за битом — это занимает время». Второй путь — планирование сверху вниз, примером которого является глубокое сотрудничество MiniMax с Zhiyuan Research Institute по экосистеме ПО FlagOS: где компании по большим моделям и чип-компании выстраивают глубокое сотрудничество и продвигаются в рамках планирования. Юйсюань Ли, руководитель MiniMax Intelligence AIInfra, отметил, что инференс на практике требует большей точности, чем обучение, а предлагаемая MiniMax технология масштабирования модели стала ключевым прорывом: достижение эффекта предсказания больших моделей с помощью очень малых моделей, углубленная оценка на отечественных чипах, согласование экспериментальных деталей с зарубежными производителями и подтверждение, что точность обучения пригодна для использования. MiniMax сообщила, что достигла крайне низкой bit-width quantization-aware тренировкой на платформе Huawei, выйдя на 95% эффективности обычного обучения. Ли Дахай объяснил, что потери в 5% связаны с оверхедом самого квантизатора, и благодаря глубокому сотрудничеству с Huawei этот оверхед оптимизировали до минимума.
MiniMax Intelligence объявила, что версия MiniCPM Small Cannon пятого поколения на 1B добилась результата 17,9 на авторитетной оценке ArtificialAnalysis (AA). Исследователи из открытого сообщества сравнили и выяснили, что GPT-4o (200B параметров), выпущенный в мае 2024 года, набрал 18,3-18,6 на том же типе оценки, разница между двумя составила всего 0,4-0,7 пункта. Ли Дахай заявил: «В 2024 году мы спрогнозировали, что к концу 2026 уровень интеллекта edge-моделей может достичь уровня GPT-4. По текущим данным эта цель достигнута с опережением графика».
В ходе предыдущей «MiniMax Open Source Week» MiniMax Intelligence выпустила две edge-модели большого масштаба: MiniCPM5-1B и BitCPM-CANN. MiniCPM5-1B снова обновила верхнюю границу плотности «интеллектуальности» модели: имея масштаб всего 1B параметров, она обошла все модели ниже 2B параметров в международно известной таблице AA-Index; по сравнению с Qwen3.5-2B, выпущенной 3 месяцами ранее, MiniCPM5-1B не только демонстрирует лучшие результаты, но и сократила число параметров вдвое.
Модель MiniCPM5-1B была предварительно обучена с использованием независимо разработанного MiniMax Intelligence AI-фреймворка для обучения ForgeTrain — первого в мире production-grade фреймворка для pre-training больших моделей, полностью написанного AI без участия программиста-человека. Скорость обучения на 10% выше, чем у NVIDIA Megatron.
Что Ли Дахай сказал о лимитах агентной технологии на конференции 2026 Beijing Zhiyuan?
Ли Дахай заявил, что ожидания общества для агентов с нулевыми ошибками превышают то, что может обеспечить текущая траектория технического развития, и технологии все еще нужно время на созревание. Он описал текущие ограничения агентов как «проблемы везде», но подчеркнул, что частота ошибок быстро снижается — в некоторых случаях с 10% до 1% за месяц.
Как производительность MiniCPM-5 1B соотносится с GPT-4o на бенчмарке ArtificialAnalysis?
MiniCPM-5 1B (с 1B параметров) набрала 17,9 на оценке ArtificialAnalysis, тогда как GPT-4o (с 200B параметров, выпущенный в мае 2024 года) набрал 18,3-18,6 на той же оценке, что дало разницу лишь 0,4-0,7 пункта между двумя моделями.
Что такое ForgeTrain и как он сравнивается с NVIDIA Megatron?
ForgeTrain — это независимо разработанный MiniMax Intelligence AI-фреймворк для обучения, первый в мире production-grade фреймворк для pre-training больших моделей, полностью написанный AI без участия программиста-человека. Он обучает на 10% быстрее, чем NVIDIA Megatron.
Связанные новости
Генеральный директор Microsoft: ИИ «ров» — это обучающий замкнутый цикл, и компании не могут отдавать обучение на аутсорсинг
Глава SpaceX публично заявил, что «слияние с Tesla» осуществимо, объединяя AI- дата-центры и бизнес по чипам
Сооснователь Animoca Сью говорит, что креативность станет самым востребованным навыком в эпоху ИИ
ChatGPT Pro поставляет 14 000 долларов США AI-ценности в тесте подписки на Semianalysis
Ripple, MetaMask и Mastercard создают инфраструктуру платежей с ИИ-агентами