Zhipu GLM-5.2 lidera o benchmark open-source DeepSWE com taxa de sucesso de 44%, superando modelos proprietários de uso geral

De acordo com Beating (uma conta de monitoramento), o modelo open-source GLM-5.2 da Zhipu AI alcançou a maior taxa de sucesso entre os modelos open-source no benchmark DeepSWE para tarefas complexas de engenharia de software, com 44% de sucesso em uma única tentativa na intensidade máxima de raciocínio. Isso supera a Kimi K2.7 Code em 31%, por 13 pontos percentuais.

A US$ 3,92 por tarefa, o GLM-5.2 supera o desempenho de vários modelos mainstream de código fechado sob configurações específicas de raciocínio, incluindo Claude Sonnet 4.6 [high] a 30%, Gemini 3.5 Flash [medium] a 37% e Claude Opus 4.8 [low] a 41%.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários