SWE-rebench Ranking mais recente: Modelos de IA chineses ocupam os primeiros catorze lugares, GLM-5 é o terceiro classificado

Gate News notícia, em 25 de março, o mantenedor do benchmark SWE-rebench, Ibragim, anunciou a atualização da classificação em 23 de março. O SWE-rebench é um benchmark em tempo real que extrai mensalmente novas tarefas de engenharia de software do GitHub, sem otimização prévia para os modelos. Nesta atualização, foram removidos os exemplos de demonstração anteriores e a limitação de 80 passos, além de serem adicionadas tarefas de avaliação auxiliar.

Classificação dos dez melhores: 1. Claude Opus 4.6 (65,3%); 2. GPT-5.2 medium (64,4%); 3. GLM-5 (62,8%); 4. GPT-5.4 medium (62,8%); 5. Gemini 3.1 Pro Preview (62,3%); 6. DeepSeek-V3.2 (60,9%); 7. Claude Sonnet 4.6 (60,7%); 8. Claude Sonnet 4.5 (60,0%); 9. Qwen3.5-397B-A17B (59,9%); 10. Step-3.5-Flash (59,6%).

O modelo de código aberto da Zhipu AI, GLM-5 (licença MIT), ficou em terceiro lugar com 62,8%, sendo o modelo de código aberto mais bem classificado. Quatro modelos chineses estão entre os dez primeiros, além do GLM-5, incluindo DeepSeek-V3.2 (sexto lugar), Qwen3.5-397B-A17B da Alibaba (nono) e Step-3.5-Flash (décimo). Li Zixuan, responsável global da Z.ai, afirmou que na última atualização do SWE-rebench, todos os modelos chineses ficaram fora do top dez.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Related Articles

Won sul-coreano responde por 30% das negociações globais à vista de criptomoedas, ficando atrás apenas do dólar americano

De acordo com a Cointelegraph, as contas de negociação em won sul-coreano representaram aproximadamente 30% do volume global de negociação spot de cripto em 6 de maio, tornando-se o segundo maior mercado fiduciário depois do dólar dos EUA.

GateNews8m atrás

Multicoin Capital bloqueia US$ 83,9 milhões em tokens HYPE hoje e se torna o 3º maior detentor

De acordo com dados on-chain, a gestora Multicoin Capital apostou 1,96 milhão de tokens HYPE hoje, avaliados em aproximadamente US$ 83,9 milhões. A transação também confirmou a conexão da Multicoin ao cluster de carteiras “Galaxy”, que detém 4,11 milhões de HYPE (cerca de US$ 176 milhões). A Multicoin agora

GateNews4h atrás

A Strive ultrapassa as 15.000 unidades de Bitcoin em compras de US$ 33,9 milhões

A Strive, Inc. (NASDAQ: ASST), empresa com sede em Dallas cofundada por Vivek Ramaswamy, divulgou na segunda-feira que o tesouro em Bitcoin ultrapassou o patamar de 15.000 BTC após a compra de mais 444 bitcoins por aproximadamente US$ 33,9 milhões, de acordo com a publicação do CEO Matt Cole no X e a

CryptoFrontier7h atrás

A MicroStrategy ganhou 63.410 BTC este ano e agora detém 3,9% do total da oferta de Bitcoin

De acordo com Michael Saylor no X, a MicroStrategy ganhou 63.410 BTC este ano, no valor de aproximadamente US$ 5,1 bilhões. A empresa atualmente detém 3,9% do total de oferta da rede Bitcoin.

GateNews13h atrás

Franklin Templeton FOBXX atinge US$ 19,8 bilhões na Stellar e se torna o segundo maior RWA

De acordo com a Cointelegraph, o fundo FOBXX da Franklin Templeton atingiu US$ 19,8 bilhões em ativos em 1º de maio, tornando-se o segundo maior ativo do mundo real (RWA) na rede Stellar.

GateNews05-01 00:54
Comentário
0/400
Sem comentários