Zhipu GLM-5.2 заняла первое место в открытом бенчмарке DeepSWE, показав 44% успешности, и превзошла основные закрытые модели

Согласно Beating (мониторинговый аккаунт), открытая модель Zhipu AI GLM-5.2 показала самый высокий уровень успешности среди открытых моделей на бенчмарке DeepSWE для сложных задач по инженерии ПО: 44% успешных попыток с первого раза при максимальной интенсивности рассуждений. Это лучше, чем у Kimi K2.7 Code — 31%, разница составляет 13 процентных пунктов.

При стоимости $3,92 за задачу GLM-5.2 обходит по эффективности несколько мейнстримных закрытых моделей при определённых конфигурациях рассуждений, включая Claude Sonnet 4.6 [high] на 30%, Gemini 3.5 Flash [medium] на 37% и Claude Opus 4.8 [low] на 41%.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев