Pesquisadores da Universidade Stanford descobriram que professores de Direito preferiram respostas geradas por IA sobre aquelas escritas por colegas professores aproximadamente 75% das vezes em um estudo recente. Em 2.918 comparações cegas, 16 professores de 14 faculdades de Direito dos EUA selecionaram respostas do Google Gemini 2.5 Pro 75,92% das vezes e respostas do NotebookLM 74,75% das vezes em comparação com respostas de instrutores humanos.
O estudo testou se grandes modelos de linguagem poderiam se alinhar a padrões profissionais de raciocínio jurídico em doutrina legal, jurisprudência, questões hipotéticas e temas de política, à medida que faculdades de Direito e tribunais passam a integrar ferramentas de IA cada vez mais na prática jurídica.
O estudo envolveu 16 professores de 14 faculdades de Direito dos EUA, incluindo Stanford, Yale, New York University, a Universidade de Chicago, Georgetown, UCLA e a Universidade da Virgínia. Os professores criaram 40 questões de direito contratual cobrindo doutrina legal, jurisprudência, hipóteses e questões de política. Os pesquisadores desenharam a avaliação para testar capacidades de IA em domínios que exigem julgamento, e não apenas uma única resposta correta.
“Grandes modelos de linguagem (LLMs) estão sendo cada vez mais promovidos como tutores educacionais, mas a maioria das avaliações se concentra em domínios com uma única verdade fundamental”, escreveram os pesquisadores. “Muitas disciplinas, no entanto, dependem de julgamento: raciocinar, ponderar ambiguidades e chegar a conclusões defensáveis. O Direito oferece um teste rigoroso.”
Os professores avaliaram pares de respostas em comparações cegas, escolhendo a resposta que prefeririam dar a um aluno sem saber se a resposta vinha de uma IA ou de um instrutor humano.
O Gemini 2.5 Pro, do Google, venceu 75,92% de seus confrontos com instrutores humanos, enquanto o NotebookLM venceu 74,75% das vezes. Os pesquisadores analisaram se os resultados refletiam um consenso profissional mais amplo ao examinar taxas de concordância quando os professores avaliaram os mesmos pares de respostas.
“A concordância observada superou o nível esperado caso os julgamentos fossem totalmente idiossincráticos, indicando que o sucesso dos LLMs reflete alinhamento com critérios comuns da área”, escreveram os pesquisadores.
Os modelos de IA superaram instrutores humanos em várias categorias, incluindo perguntas de lembrança relacionadas a caso, código ou doutrina, questões hipotéticas e discussões sobre políticas. O estudo testou se as vantagens da IA vinham de um estilo de escrita superficial em vez de conteúdo substantivo ao analisar características léxico-sintáticas como tamanho das respostas, organização estrutural, nuance do raciocínio, ancoragens legais, tom de confiança, clareza e suporte pedagógico.
Em uma análise separada de modelos adicionais, o Claude Opus 4.7, da Anthropic, ficou em primeiro lugar, seguido por ChatGPT 5.4, da OpenAI, e Gemini 2.5 Pro. Todos os modelos de IA avaliados superaram instrutores humanos em média.
Respostas geradas por IA foram sinalizadas como nocivas com menos frequência do que aquelas escritas por professores. O Gemini registrou uma taxa de nocividade de 3,41% e o NotebookLM registrou 3,64%, em comparação com 12,06% para instrutores humanos.
Os pesquisadores observaram que o estudo não mediu se as respostas correspondiam às preferências individuais de ensino de cada professor. “Embora as respostas dos LLMs sejam geralmente preferidas às de instrutores humanos, nosso ambiente de avaliação não nos permite medir diretamente em que medida as preferências do instrutor são atendidas”, afirmou o estudo. “É, no mínimo, teoricamente possível que, embora os LLMs geralmente entreguem respostas mais fortes, ainda gerem respostas que são apenas vistas como ‘bom o suficiente’.”
O Tribunal Superior de Los Angeles começou a testar ferramentas de IA em março para ajudar juízes a gerenciar uma carga de processos crescente. Faculdades de Direito estão adicionando programas de treinamento em IA à medida que a profissão jurídica integra inteligência artificial.
“O potencial de benefícios dessas novas tecnologias como multiplicador de força na prática do Direito simplesmente não pode ser ignorado”, disse o reitor da Mississippi College School of Law, John P. Anderson, ao Decrypt. “Se nossos alunos planejam atuar como litigantes ou como advogados de transações, os empregadores futuros deles vão esperar familiaridade com essas ferramentas de IA. Queremos que os escritórios que contratam nossos alunos tenham confiança de que cada graduado da MC Law é competente em tecnologias de IA.”
Escritórios de advocacia continuam a lidar com casos enfraquecidos por alucinações e outros erros gerados por IA. Em abril, o escritório Sullivan & Cromwell admitiu a um tribunal federal de falências dos EUA que uma petição recente em um caso de alto perfil continha citações falsas geradas por IA.
Qual foi a porcentagem de vezes em que professores de Direito preferiram respostas geradas por IA em vez de respostas escritas por humanos no estudo de Stanford?
Professores de Direito preferiram respostas geradas por IA aproximadamente 75% das vezes no estudo de Stanford. O Gemini 2.5 Pro, do Google, venceu 75,92% de seus confrontos com instrutores humanos, enquanto o NotebookLM venceu 74,75% das vezes em 2.918 comparações cegas.
Como as taxas de nocividade da IA se compararam às respostas de instrutores humanos no estudo?
Respostas geradas por IA registraram taxas de nocividade menores do que as respostas de instrutores humanos. O Gemini teve uma taxa de nocividade de 3,41% e o NotebookLM teve uma taxa de 3,64%, em comparação com 12,06% para instrutores humanos.
Quais ferramentas de IA o Tribunal Superior de Los Angeles está testando?
O Tribunal Superior de Los Angeles começou a testar ferramentas de IA em março para ajudar juízes a gerenciar uma carga de processos crescente, embora as ferramentas específicas não tenham sido identificadas na fonte.
Notícias relacionadas
A Microsoft Build lançou 7 modelos de IA, com consumo de tokens 60% menor do que o de concorrentes
A Microsoft lança sete modelos de IA com alegações de vantagem sobre Claude e Nano Banana
Alphabet aumenta 80 bilhões para expandir a capacidade de computação de IA, com Berkshire Hathaway investindo 10 bilhões
Alphabet busca US$ 80 bilhões para financiar a expansão da infraestrutura de IA
A crise de custos da IA alimenta novas comparações com uma bolha dot-com