Equipe de PLN de Stanford apresenta novos avanços na pesquisa de IA automatizada
Stanford NLP na ICML 2026 apresenta a transformação do pré-treinamento e pós-treinamento de LLM em ambientes de execução através de atuadores automatizados, utilizando feedback de execução para melhorar a eficiência da pesquisa. Dois métodos: busca evolutiva supera o GRPO em tarefas de pós-treinamento (69,4% contra 48,0%), e as fórmulas encontradas na fase de pré-treinamento são mais rápidas do que o nanoGPT (19,7 minutos contra 35,9 minutos), ambos concluídos em dez rodadas de busca; o reforço baseado em recompensas de execução é suscetível a colapsos de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho aponta para uma direção na pesquisa automatizada orientada por execução em IA.