De acordo com Beating (uma conta de monitorização), o modelo open-source GLM-5.2 da Zhipu AI alcançou a maior taxa de sucesso entre os modelos open-source no benchmark DeepSWE para tarefas complexas de engenharia de software, com uma taxa de sucesso de 44% numa única tentativa com intensidade máxima de raciocínio. Isto supera o Kimi K2.7 Code, com 31%, em 13 pontos percentuais.
A 3,92 USD por tarefa, o GLM-5.2 ultrapassa o desempenho de vários modelos fechados de referência sob configurações específicas de raciocínio, incluindo o Claude Sonnet 4.6 [high] a 30%, o Gemini 3.5 Flash [medium] a 37% e o Claude Opus 4.8 [low] a 41%.