Professores de Direito preferem respostas de IA a respostas humanas 75% das vezes num estudo da Stanford

2026-06-03 20:47:46

Investigadores da Universidade Stanford descobriram que professores de direito preferiram respostas geradas por IA a respostas escritas por colegas professores cerca de 75% das vezes num estudo recente. Em 2.918 comparações cegas, 16 professores de 14 faculdades de direito nos EUA selecionaram respostas do Google Gemini 2.5 Pro 75,92% das vezes e respostas do NotebookLM 74,75% das vezes, em comparação com respostas de professores humanos. O estudo testou se grandes modelos de linguagem conseguem alinhar com padrões de raciocínio jurídico profissional em doutrina jurídica, jurisprudência, questões hipotéticas e questões de política, à medida que escolas de direito e tribunais integram cada vez mais ferramentas de IA na prática jurídica.

Estudo de Stanford testa IA contra professores de direito em questões de direito contratual

O estudo envolveu 16 professores de 14 faculdades de direito nos EUA, incluindo Stanford, Yale, New York University, a University of Chicago, Georgetown, a UCLA e a University of Virginia. Os professores criaram 40 questões de direito contratual cobrindo doutrina jurídica, jurisprudência, questões hipotéticas e questões de política. Os investigadores conceberam a avaliação para testar capacidades de IA em domínios que exigem julgamento e não apenas uma resposta única correta.

"Os grandes modelos de linguagem (LLMs) estão cada vez mais promovidos como tutores educacionais, mas a maioria das avaliações foca-se em domínios com uma única verdade de base", escreveram os investigadores. "Muitas disciplinas, no entanto, dependem de julgamento: raciocínio, ponderação da ambiguidade e chegada a conclusões defensáveis. O direito proporciona um teste rigoroso."

Os professores avaliaram pares de respostas em comparações cegas, escolhendo a resposta que prefeririam dar a um aluno sem saber se a resposta provinha de uma IA ou de um professor humano.

Gemini 2.5 Pro e NotebookLM vencem em 75% das comparações entre professores

O Gemini 2.5 Pro do Google venceu 75,92% dos seus confrontos com professores humanos, enquanto o NotebookLM venceu 74,75% das vezes. Os investigadores analisaram se os resultados refletiam um consenso profissional mais amplo ao examinar as taxas de concordância quando os professores avaliavam os mesmos pares de respostas.

"A concordância observada excedeu o nível esperado caso os julgamentos fossem totalmente idiossincráticos, indicando que o sucesso dos LLMs reflete alinhamento com critérios comuns da disciplina", escreveram os investigadores.

Os modelos de IA superaram professores humanos em várias categorias, incluindo perguntas de recordação relacionadas com casos, código ou doutrina, questões hipotéticas e discussões de política. O estudo testou se as vantagens da IA decorrem de um estilo de escrita ao nível da superfície e não do conteúdo substantivo, ao analisar características lexo-sintáticas, como o comprimento da resposta, organização estrutural, subtileza do raciocínio, ancoragens jurídicas, tom de confiança, clareza e apoio pedagógico.

Numa análise separada de modelos adicionais, o Claude Opus 4.7 da Anthropic ficou em primeiro lugar, seguido pelo ChatGPT 5.4 da OpenAI e pelo Gemini 2.5 Pro. Todos os modelos de IA avaliados superaram, em média, os professores humanos.

Modelos de IA registam taxas de menor nocividade do que professores humanos

As respostas geradas por IA foram sinalizadas como nocivas com menos frequência do que as escritas por professores. O Gemini registou uma taxa de nocividade de 3,41% e o NotebookLM de 3,64%, face a 12,06% para professores humanos.

Os investigadores assinalaram que o estudo não mediu se as respostas coincidiam com as preferências individuais de ensino de cada professor. "Embora as respostas dos LLMs sejam geralmente preferidas às dos professores humanos, o nosso contexto de avaliação não nos permite medir diretamente em que medida as preferências dos instrutores são satisfeitas", afirmou o estudo. "É, pelo menos teoricamente, possível que, embora os LLMs gerem em geral respostas mais fortes, ainda produzam respostas que são apenas vistas como 'suficientemente boas'."

Tribunal de Los Angeles e faculdades de direito adotam ferramentas de IA

O Tribunal Superior de Los Angeles começou a testar ferramentas de IA em março para ajudar os juízes a gerir o crescente volume de processos. As faculdades de direito estão a acrescentar programas de formação em IA à medida que a profissão jurídica integra inteligência artificial.

"O potencial de benefícios destas novas tecnologias como multiplicador de força na prática do direito simplesmente não pode ser ignorado", disse o reitor da Mississippi College School of Law, John P. Anderson, à Decrypt. "Quer os nossos alunos planeiem ser litigantes ou advogados de transações, os seus futuros empregadores vão esperar familiaridade com estas ferramentas de IA. Queremos que as firmas que contratam os nossos alunos tenham confiança de que cada licenciado da MC Law é competente em tecnologias de IA."

Sullivan & Cromwell admite citações falsas de IA num processo de falência

As sociedades de advogados continuam a enfrentar casos enfraquecidos por alucinações e outros erros gerados por IA. Em abril, a firma Sullivan & Cromwell admitiu perante um tribunal de falências dos EUA que um processo recente num caso de grande visibilidade continha citações falsas geradas por IA.

FAQ

Que percentagem do tempo os professores de direito preferiram respostas geradas por IA em vez de respostas escritas por humanos no estudo de Stanford?

Os professores de direito preferiram respostas geradas por IA cerca de 75% das vezes no estudo de Stanford. O Gemini 2.5 Pro da Google venceu 75,92% dos seus confrontos com professores humanos, enquanto o NotebookLM venceu 74,75% das vezes em 2.918 comparações cegas.

Como se compararam as taxas de nocividade da IA com as respostas dos professores humanos no estudo?

As respostas geradas por IA registaram taxas de nocividade mais baixas do que as respostas dos professores humanos. O Gemini teve uma taxa de nocividade de 3,41% e o NotebookLM de 3,64%, face a 12,06% para os professores humanos.

Que ferramentas de IA está a testar o Tribunal Superior de Los Angeles?

O Tribunal Superior de Los Angeles começou a testar ferramentas de IA em março para ajudar os juízes a gerir o crescente volume de processos, embora as ferramentas específicas não tenham sido identificadas na fonte.

Ver fonte

Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.

Notícias relacionadas

06-03 20:46

Professores de Direito preferem respostas geradas por IA a respostas de colegas num estudo recente, com uma taxa de preferência de 75%

06-03 13:54

A Google anuncia o lançamento do Gemini 3.5 Pro em junho; a aplicação atinge 900 milhões de utilizadores ativos mensais e 350 milhões de subscritores pagadores

06-03 12:54

O Google permite que os sites optem por não aparecer nos resultados de pesquisa com IA sem afetar as classificações

A Microsoft Build lançou 7 modelos de IA, com uma utilização de tokens 60% inferior à dos concorrentes

Market Whisper06-03 02:57

A Microsoft Revela Sete Modelos de IA com a Afirmação de Vantagem sobre a Claude e a Nano Banana

Oliver Grant06-02 21:18

A Alphabet aumenta em 80 mil milhões para expandir o poder de computação de IA; a Berkshire Hathaway investe 10 mil milhões.

Market Whisper06-02 05:06

Alphabet procura 80 mil milhões de dólares para financiar a expansão da infraestrutura de IA

Oliver Grant06-01 21:34

A crise de custos da IA alimenta comparações frescas com uma nova bolha dot-com

Crypto News Land06-01 18:31

Comentar

0/400

Nenhum comentário