Investigadores da Universidade Stanford descobriram que professores de direito preferiram respostas geradas por IA a respostas escritas por colegas professores cerca de 75% das vezes num estudo recente. Em 2.918 comparações cegas, 16 professores de 14 faculdades de direito nos EUA selecionaram respostas do Google Gemini 2.5 Pro 75,92% das vezes e respostas do NotebookLM 74,75% das vezes, em comparação com respostas de professores humanos. O estudo testou se grandes modelos de linguagem conseguem alinhar com padrões de raciocínio jurídico profissional em doutrina jurídica, jurisprudência, questões hipotéticas e questões de política, à medida que escolas de direito e tribunais integram cada vez mais ferramentas de IA na prática jurídica.
O estudo envolveu 16 professores de 14 faculdades de direito nos EUA, incluindo Stanford, Yale, New York University, a University of Chicago, Georgetown, a UCLA e a University of Virginia. Os professores criaram 40 questões de direito contratual cobrindo doutrina jurídica, jurisprudência, questões hipotéticas e questões de política. Os investigadores conceberam a avaliação para testar capacidades de IA em domínios que exigem julgamento e não apenas uma resposta única correta.
"Os grandes modelos de linguagem (LLMs) estão cada vez mais promovidos como tutores educacionais, mas a maioria das avaliações foca-se em domínios com uma única verdade de base", escreveram os investigadores. "Muitas disciplinas, no entanto, dependem de julgamento: raciocínio, ponderação da ambiguidade e chegada a conclusões defensáveis. O direito proporciona um teste rigoroso."
Os professores avaliaram pares de respostas em comparações cegas, escolhendo a resposta que prefeririam dar a um aluno sem saber se a resposta provinha de uma IA ou de um professor humano.
O Gemini 2.5 Pro do Google venceu 75,92% dos seus confrontos com professores humanos, enquanto o NotebookLM venceu 74,75% das vezes. Os investigadores analisaram se os resultados refletiam um consenso profissional mais amplo ao examinar as taxas de concordância quando os professores avaliavam os mesmos pares de respostas.
"A concordância observada excedeu o nível esperado caso os julgamentos fossem totalmente idiossincráticos, indicando que o sucesso dos LLMs reflete alinhamento com critérios comuns da disciplina", escreveram os investigadores.
Os modelos de IA superaram professores humanos em várias categorias, incluindo perguntas de recordação relacionadas com casos, código ou doutrina, questões hipotéticas e discussões de política. O estudo testou se as vantagens da IA decorrem de um estilo de escrita ao nível da superfície e não do conteúdo substantivo, ao analisar características lexo-sintáticas, como o comprimento da resposta, organização estrutural, subtileza do raciocínio, ancoragens jurídicas, tom de confiança, clareza e apoio pedagógico.
Numa análise separada de modelos adicionais, o Claude Opus 4.7 da Anthropic ficou em primeiro lugar, seguido pelo ChatGPT 5.4 da OpenAI e pelo Gemini 2.5 Pro. Todos os modelos de IA avaliados superaram, em média, os professores humanos.
As respostas geradas por IA foram sinalizadas como nocivas com menos frequência do que as escritas por professores. O Gemini registou uma taxa de nocividade de 3,41% e o NotebookLM de 3,64%, face a 12,06% para professores humanos.
Os investigadores assinalaram que o estudo não mediu se as respostas coincidiam com as preferências individuais de ensino de cada professor. "Embora as respostas dos LLMs sejam geralmente preferidas às dos professores humanos, o nosso contexto de avaliação não nos permite medir diretamente em que medida as preferências dos instrutores são satisfeitas", afirmou o estudo. "É, pelo menos teoricamente, possível que, embora os LLMs gerem em geral respostas mais fortes, ainda produzam respostas que são apenas vistas como 'suficientemente boas'."
O Tribunal Superior de Los Angeles começou a testar ferramentas de IA em março para ajudar os juízes a gerir o crescente volume de processos. As faculdades de direito estão a acrescentar programas de formação em IA à medida que a profissão jurídica integra inteligência artificial.
"O potencial de benefícios destas novas tecnologias como multiplicador de força na prática do direito simplesmente não pode ser ignorado", disse o reitor da Mississippi College School of Law, John P. Anderson, à Decrypt. "Quer os nossos alunos planeiem ser litigantes ou advogados de transações, os seus futuros empregadores vão esperar familiaridade com estas ferramentas de IA. Queremos que as firmas que contratam os nossos alunos tenham confiança de que cada licenciado da MC Law é competente em tecnologias de IA."
As sociedades de advogados continuam a enfrentar casos enfraquecidos por alucinações e outros erros gerados por IA. Em abril, a firma Sullivan & Cromwell admitiu perante um tribunal de falências dos EUA que um processo recente num caso de grande visibilidade continha citações falsas geradas por IA.
Que percentagem do tempo os professores de direito preferiram respostas geradas por IA em vez de respostas escritas por humanos no estudo de Stanford?
Os professores de direito preferiram respostas geradas por IA cerca de 75% das vezes no estudo de Stanford. O Gemini 2.5 Pro da Google venceu 75,92% dos seus confrontos com professores humanos, enquanto o NotebookLM venceu 74,75% das vezes em 2.918 comparações cegas.
Como se compararam as taxas de nocividade da IA com as respostas dos professores humanos no estudo?
As respostas geradas por IA registaram taxas de nocividade mais baixas do que as respostas dos professores humanos. O Gemini teve uma taxa de nocividade de 3,41% e o NotebookLM de 3,64%, face a 12,06% para os professores humanos.
Que ferramentas de IA está a testar o Tribunal Superior de Los Angeles?
O Tribunal Superior de Los Angeles começou a testar ferramentas de IA em março para ajudar os juízes a gerir o crescente volume de processos, embora as ferramentas específicas não tenham sido identificadas na fonte.
Notícias relacionadas
A Microsoft Build lançou 7 modelos de IA, com uma utilização de tokens 60% inferior à dos concorrentes
A Microsoft Revela Sete Modelos de IA com a Afirmação de Vantagem sobre a Claude e a Nano Banana
A Alphabet aumenta em 80 mil milhões para expandir o poder de computação de IA; a Berkshire Hathaway investe 10 mil milhões.
Alphabet procura 80 mil milhões de dólares para financiar a expansão da infraestrutura de IA
A crise de custos da IA alimenta comparações frescas com uma nova bolha dot-com