Gate News notícia, em 25 de março, o mantenedor do benchmark SWE-rebench, Ibragim, anunciou a atualização da classificação em 23 de março. O SWE-rebench é um benchmark em tempo real que extrai mensalmente novas tarefas de engenharia de software do GitHub, sem otimização prévia para os modelos. Nesta atualização, foram removidos os exemplos de demonstração anteriores e a limitação de 80 passos, além de serem adicionadas tarefas de avaliação auxiliar.
Classificação dos dez melhores: 1. Claude Opus 4.6 (65,3%); 2. GPT-5.2 medium (64,4%); 3. GLM-5 (62,8%); 4. GPT-5.4 medium (62,8%); 5. Gemini 3.1 Pro Preview (62,3%); 6. DeepSeek-V3.2 (60,9%); 7. Claude Sonnet 4.6 (60,7%); 8. Claude Sonnet 4.5 (60,0%); 9. Qwen3.5-397B-A17B (59,9%); 10. Step-3.5-Flash (59,6%).
O modelo de código aberto da Zhipu AI, GLM-5 (licença MIT), ficou em terceiro lugar com 62,8%, sendo o modelo de código aberto mais bem classificado. Quatro modelos chineses estão entre os dez primeiros, além do GLM-5, incluindo DeepSeek-V3.2 (sexto lugar), Qwen3.5-397B-A17B da Alibaba (nono) e Step-3.5-Flash (décimo). Li Zixuan, responsável global da Z.ai, afirmou que na última atualização do SWE-rebench, todos os modelos chineses ficaram fora do top dez.
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a
Isenção de responsabilidade.
Related Articles
Contas em won sul-coreano representam 30% do trading global de criptomoedas à vista, apenas atrás do dólar norte-americano
De acordo com a Cointelegraph, as contas de negociação em won sul-coreano representaram cerca de 30% do volume global de negociação spot de cripto em 6 de maio, tornando-se o segundo maior mercado fiduciário depois do dólar americano.
GateNews13h atrás
A Multicoin Capital imobiliza 83,9 milhões de dólares em tokens HYPE hoje, tornando-se o 3.º maior detentor
Com base em dados on-chain, a sociedade de investimento Multicoin Capital fez staking de 1,96 milhões de tokens HYPE hoje, no valor de aproximadamente 83,9 milhões de dólares. A transacção também confirmou a ligação da Multicoin ao cluster de carteiras “Galaxy”, que detém 4,11 milhões de HYPE (cerca de 176 milhões de dólares).
A Multicoin já agora
GateNews17h atrás
A posse de Bitcoin da Strive ultrapassa 15.000 unidades com uma compra de 33,9 milhões de dólares
A Strive, Inc. (NASDAQ: ASST), a empresa sediada em Dallas cofundada por Vivek Ramaswamy, revelou na segunda-feira que a sua tesouraria em Bitcoin ultrapassou o patamar de 15.000 BTC após a compra de mais 444 bitcoin por aproximadamente 33,9 milhões de dólares, segundo a publicação do CEO Matt Cole no X e a
CryptoFrontier20h atrás
A MicroStrategy ganhou 63.410 BTC este ano e agora detém 3,9% do fornecimento total de Bitcoin
De acordo com Michael Saylor no X, a MicroStrategy ganhou 63,410 BTC este ano, num valor aproximado de 5,1 mil milhões de dólares. A empresa tem atualmente 3,9% do fornecimento total da rede Bitcoin.
GateNews05-05 13:00
Franklin Templeton FOBXX atinge 19,8 mil milhões de dólares na Stellar, tornando-se o segundo maior RWA
Segundo o Cointelegraph, o fundo FOBXX da Franklin Templeton atingiu 19,8 mil milhões de dólares em ativos a 1 de maio, tornando-se o segundo maior ativo do mundo real (RWA) na rede Stellar.
GateNews05-01 00:54