GPT-5.5 Regressa ao Estado da Arte na Codificação, mas a OpenAI Muda os Benchmarks Depois de Perder para o Opus 4.7

Gate News mensagem, 27 de Abril — A SemiAnalysis, uma empresa de análise de semicondutores e IA, publicou um benchmark comparativo de assistentes de codificação, incluindo GPT-5.5, Claude Opus 4.7 e DeepSeek V4. A principal conclusão: GPT-5.5 marca o primeiro regresso da OpenAI ao estado da arte em modelos de codificação em seis meses, com engenheiros da SemiAnalysis agora a alternar entre Codex e Claude Code após antes dependerem quase exclusivamente de Claude. O GPT-5.5 baseia-se numa nova abordagem de pré-treinamento com o nome de código “Spud” e representa a primeira expansão do OpenAI da escala de pré-treinamento desde o GPT-4.5.

Em testes práticos, surgiu uma divisão clara de responsabilidades. Claude trata do planeamento de novos projectos e da configuração inicial, enquanto Codex se destaca em correcções de bugs que exigem raciocínio intensivo. O Codex mostra uma compreensão mais forte de estruturas de dados e raciocínio lógico, mas tem dificuldades em inferir intenções de utilizador ambíguas. Numa tarefa única no mesmo painel, o Claude replicou automaticamente o layout da página de referência, mas fabricou grandes quantidades de dados, enquanto o Codex ignorou o layout mas entregou dados significativamente mais precisos.

A análise revela um detalhe de manipulação do benchmark: um post de Fevereiro da OpenAI incentivava a indústria a adoptar o SWE-bench Pro como o novo padrão para benchmarks de codificação. No entanto, o anúncio do GPT-5.5 mudou para um novo benchmark chamado “Expert-SWE.” O motivo, escondido nas letras pequenas, é que o GPT-5.5 foi ultrapassado pelo Opus 4.7 no SWE-bench Pro e ficou muito aquém do Mythos (77.8%), ainda não lançado da Anthropic.

Quanto ao Opus 4.7, a Anthropic publicou uma análise pós-mortem uma semana após o lançamento, reconhecendo três bugs no Claude Code que persistiram por várias semanas de Março a Abril, afectando quase todos os utilizadores. Vários engenheiros tinham previamente reportado degradação de desempenho na versão 4.6 mas foram descartados como observações subjectivas. Além disso, o novo tokenizador do Opus 4.7 aumenta o uso de tokens em até 35%, o que a Anthropic admitiu abertamente — constituindo, na prática, um aumento de preço oculto.

O DeepSeek V4 foi avaliado como “acompanhar o ritmo da fronteira mas não liderar,” posicionando-se como a alternativa de menor custo entre os modelos de código fechado. A análise também notou que “o Claude continua a superar o DeepSeek V4 Pro em tarefas de escrita chinesa de alta dificuldade,” comentando que “o Claude venceu o modelo chinês na sua própria língua.”

O artigo introduz um conceito-chave: a precificação do modelo deve ser avaliada por “custo por tarefa” e não por “custo por token.” A precificação do GPT-5.5 é o dobro da do GPT-5.4 (input $5, output $30 por milhão de tokens), mas conclui as mesmas tarefas usando menos tokens, tornando o custo real não necessariamente mais alto. Os dados iniciais da SemiAnalysis mostram que a razão input-para-output do Codex é de 80:1, inferior à do Claude Code, que é de 100:1.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A Samsung Electro-Mechanics valoriza com a procura de IA, a KB Securities eleva o preço-alvo a 4 de maio

De acordo com a KB Securities a 4 de maio, a Samsung Electro-Mechanics manteve uma recomendação de compra e aumentou o seu preço-alvo, citando a forte procura por condensadores cerâmicos multicamadas e substratos FC-BGA utilizados em servidores de IA. A empresa reportou uma receita no primeiro trimestre de 3,2 biliões de won ($2,18 mil milhões) e

GateNews5m atrás

A Meta Aumenta o Envolvimento no Facebook e no Instagram no 1.º Triestre do EF26; o Tempo em Reels Sobe 10%

De acordo com o The Economic Times, os resultados do 1.º trimestre do ano fiscal 2026 da Meta mostraram que as atualizações de IA impulsionaram o envolvimento por vídeo no Facebook e no Instagram. O tempo despendido no Instagram Reels subiu 10%, enquanto o tempo de visualização de vídeos no Facebook aumentou mais de 8% a nível global. O preço médio por anúncio subiu 12% em termos homólogos, e mais de 8

GateNews5m atrás

Novo estudo da Harvard Medical School: a IA nas decisões de diagnóstico no serviço de urgência é melhor do que os médicos humanos

A investigação da Faculdade de Medicina de Harvard, publicada na revista Science, avalia de forma objectiva as diferenças entre sistemas de IA e médicos humanos na interpretação de histórias clínicas, através de testes duplo-cego e de inferência clínica. Os resultados mostram que, nos pontos de decisão iniciais no serviço de urgência, a IA pode ser tão boa como o médico assistente ou até melhor, e apenas com base nas informações de história clínica electrónica disponíveis nesse momento. O estudo sublinha ainda que a IA não consegue, por si só, exercer a prática médica, pelo que os médicos continuam a ser indispensáveis; se for aplicada de forma generalizada, a IA pode reduzir os erros de diagnóstico e os custos de acesso aos cuidados de saúde.

ChainNewsAbmedia21m atrás

Os 10 principais conglomerados da Coreia do Sul ganham 65% para 2,6 biliões de dólares à medida que as ações de chips para IA disparam

Segundo o The Korea Herald, os 10 principais conglomerados da Coreia do Sul viram o seu valor de mercado combinado aumentar 65% para 3,832.7 biliões de won (US$2,6 biliões), impulsionado por uma recuperação nas ações de chips relacionadas com a IA. A SK Group registou o maior ganho, com uma subida de 89,6% para 1,139.8 biliões de won (US$775 mil milhões), liderada por uma

GateNews24m atrás

Os investimentos em IA impulsionaram 75% do crescimento do PIB dos EUA no 1.º trimestre, diz um conselheiro da Casa Branca

De acordo com David Sacks, conselheiro de IA e de cripto da Casa Branca, ao comentar os dados da Morgan Stanley divulgados no início de maio, os investimentos relacionados com IA terão contribuído com cerca de 75% do crescimento do PIB dos EUA no primeiro trimestre de 2026. Sacks referiu que o investimento em IA irá impulsionar cerca de 2,5% do crescimento do PIB este ano e

GateNews29m atrás

Talento em IA ganha até 25% mais em Singapura, mostra relatório da NodeFlair

De acordo com o Relatório de Salários Tecnológicos de 2026 da NodeFlair, divulgado a 4 de maio, os engenheiros de software em Singapura com competências em IA ganharam 13% a 25% mais do que os pares sem esse tipo de especialização. Os resultados basearam-se em mais de 230.000 dados salariais verificados. Os aumentos salariais variaram consoante o nível de carreira, com

GateNews1h atrás
Comentar
0/400
Nenhum comentário