De acordo com a Beating, a empresa de avaliação de IA Vals AI lançou a sua segunda geração do benchmark do Finance Agent v2 a 14 de maio, testando fluxos de trabalho de análise financeira através de 927 perguntas revistas por especialistas. O GPT-5.5 liderou a classificação com uma taxa de acerto de 51,76%, seguido de perto pelo Claude Opus 4.7 (51,51%) e pelo Claude Sonnet 4.6 (51,03%). O teste exigia que os modelos localizassem de forma independente secções relevantes em centenas de páginas de declarações financeiras 10-K e 10-Q e completassem cálculos multi-etapa com valores intermédios precisos.
Sob padrões de avaliação rigorosos que exigem respostas totalmente corretas, as taxas de acerto dos principais modelos desceram abaixo dos 40%, com as categorias mais difíceis — modelação financeira e análise de precedentes — a atingirem apenas 23% no melhor cenário. Entre outros modelos, o Kimi K2.6 ficou em quinto lugar com 44,87%, seguido pelo GLM 5.1 (44,79%) e pelo DeepSeek V4 (44,08%). Em comparação com a versão anterior, em que o Opus 4.7 tinha obtido 64,4%, a quebra acentuada mostra que, embora a IA consiga lidar com pesquisas simples, continua muito longe de substituir analistas humanos no domínio complexo das finanças, que exige precisão numérica rigorosa.