Andrej Karpathy respondeu recentemente no X às opiniões do engenheiro da equipa do Anthropic Claude Code, Thariq Shihipar, afirmando que, quando se faz perguntas a grandes modelos de linguagem, basta acrescentar no fim do prompt uma frase como «Por favor, apresente a resposta em estrutura HTML» e depois colocar os ficheiros gerados no browser para os ver — e, em muitos casos, o resultado é muito bom. Ele chegou mesmo a dizer que também já tentou pedir ao LLM que gerasse a resposta em formato de diapositivos, obtendo igualmente bons resultados.
(Engenheiro da Anthropic: HTML é o melhor formato de saída para o Claude Code, e não Markdown)
Do texto puro ao HTML: a saída da IA está a passar de «legível» para «visualizável»
Este comentário dá continuidade às discussões recentes na comunidade de programadores de IA sobre se «HTML é mais adequado do que Markdown como formato de saída para a IA». Shihipar defendeu antes, num artigo intitulado «Using Claude Code: The Unreasonable Effectiveness of HTML», que, para agentes de coding de IA como o Claude Code, o HTML não é apenas um formato de apresentação, mas um meio que permite que as respostas da IA saiam de texto linear para uma interface de saída de documentos interativos.
Karpathy levou ainda mais longe a questão, elevando-a para a evolução das interfaces de entrada e saída entre humanos e IA. Karpathy acredita que, neste momento, a maioria das saídas por defeito dos LLM ainda se mantém na fase do Markdown. Em comparação com o texto original, o Markdown já melhora a experiência de leitura com títulos, negrito, itálico, tabelas, entre outras opções, mas continua a ser, no essencial, uma apresentação linear centrada no texto.
Na sua classificação, os formatos de saída da IA podem ser entendidos, de forma geral, como um caminho de evolução: a primeira fase é o texto original, com maior custo de leitura; a segunda fase é o Markdown, ou seja, o formato por defeito da maioria dos produtos de IA; a terceira fase é o HTML. Embora o HTML continue a ser um produto «programado», em baixo nível precisa de etiquetas e estrutura, mas oferece maior flexibilidade em termos de gráficos, layout, estilos e até mesmo a possibilidade de incluir elementos interativos.
O Markdown faz com que as respostas da IA sejam «mais fáceis de ler», mas o HTML pode transformar as respostas em documentos «que se podem ver, operar e compreender visualmente».
Este é também o motivo central pelo qual Shihipar defendia anteriormente que o HTML supera o Markdown: o HTML consegue suportar gráficos e tabelas SVG, codificação por cores, estilos CSS, blocos de aviso, âncoras dentro da página, elementos interativos e tabelas de comparação lado a lado. Em cenários como documentação técnica, análise de vulnerabilidades, visualização de dados e explicações de ensino, o HTML permite converter informação textual que normalmente o leitor teria de consumir lentamente em documentos visuais que tornam evidentes, de relance, os níveis, os riscos e as relações.
Karpathy: os humanos preferem a entrada por voz, mas preferem a saída visual da IA
A nova perspectiva de Karpathy não se resume a falar de HTML; fala antes sobre o futuro das interfaces da IA.
Ele aponta que, do lado da entrada, os humanos podem preferir mais a interação por voz com a IA, porque falar é uma forma de expressão natural e de baixo custo. Porém, do lado da saída, o que os humanos tendem a preferir são informações visuais, incluindo imagens, animações e vídeo.
A razão é que o cérebro humano dedica cerca de um terço do seu processamento à informação visual. Por isso, à medida que as capacidades da IA aumentam, a IA não deve apenas embalar as respostas em texto, mas avançar gradualmente para uma saída visual mais densa e mais intuitiva.
Isto torna a importância do HTML ainda mais clara. O HTML não é um ponto final, mas pode ser uma fase de transição para a IA passar da saída em texto para a visualização. Ele expressa melhor imagens, layout e interatividade do que o Markdown, mas ainda é mais estável e controlável do que vídeos ou simulações geradas exclusivamente por redes neurais.
Karpathy avança ainda uma hipótese: embora a tecnologia relacionada ainda não exista atualmente, a longo prazo, o «ponto final» da saída da IA poderá ser algum tipo de vídeo ou conteúdo de simulação interativo gerado diretamente por modelos de difusão.
Ou seja, no futuro, a IA pode não estar apenas a «responder-lhe com um trecho de texto», nem apenas a «criar um documento HTML para si», mas sim a gerar cenários visuais interativos, exploráveis e com mudanças dinâmicas. Os utilizadores podem interagir com o conteúdo, ver as alterações e compreender relações de causa-efeito — como se juntasse um vídeo de ensino, simulações interativas e uma interface de geração em tempo real.
No entanto, Karpathy também reconhece que aqui ainda existem muitas questões em aberto. Especialmente como combinar os «produtos da Software 1.0» tradicionais da engenharia de software — precisos, verificáveis e programáveis, como simulações interativas, componentes de front-end e modelos matemáticos — com as imagens de redes neurais, animações ou vídeos gerados por modelos de difusão, ainda não há uma resposta madura.
Este artigo «Karpathy: A IA não deve ficar no Markdown! HTML é o futuro; o desfecho é um cenário interativo explorável» apareceu pela primeira vez em «Lian Xinwen ABMedia».
Related News
Anthropic: O treino de textos de ficção científica leva Claude Opus 4 a uma taxa de resgate de 96%
A OpenAI lança o seu plano de cibersegurança Daybreak, com uma arquitectura em três camadas do GPT-5,5 para fazer frente à Anthropic Mythos
Akshay analisa a arquitetura em 6 camadas do Claude Code: o modelo é apenas um nó num ciclo
Jim Cramer: As ações de centros de dados de IA «ainda não estão totalmente atrasadas», a lista abrange 4 grandes categorias, dos chips à eletricidade
Disputa do Anthropic Code Mode: MCP vs CLI — as ferramentas travam o Runtime e os tokens caem de 150 mil para 2 mil