Профессора права предпочитают ответы ИИ вместо ответов людей в 75% случаев в исследовании Стэнфорда

Исследователи из Стэнфордского университета выяснили, что преподаватели права предпочитали ответы по контрактному праву, сгенерированные ИИ, ответам, написанным коллегами-преподавателями, примерно в 75% случаев в рамках недавнего исследования. В 2 918 слепых сравнениях 16 профессоров из 14 юридических школ США выбирали ответы Gemini 2.5 Pro от Google в 75,92% случаев, а ответы NotebookLM — в 74,75% случаев, по сравнению с вариантами ответов, подготовленными преподавателями-людьми. Исследование проверяло, могут ли крупные языковые модели соответствовать стандартам профессионального юридического рассуждения в области юридической доктрины, судебной практики, гипотетических задач и вопросов политики, поскольку юридические школы и суды все чаще интегрируют ИИ-инструменты в юридическую практику.

Стэнфордское исследование проверяет ИИ против профессоров права в вопросах по договорному праву

В исследовании участвовали 16 профессоров из 14 юридических школ США, включая Стэнфорд, Йель, Нью-Йоркский университет, Чикагский университет, Джорджтаун, UCLA и Университет Вирджинии. Профессора подготовили 40 вопросов по договорному праву, охватывающих правовую доктрину, судебную практику, гипотетические ситуации и вопросы политики. Исследователи выстроили оценку так, чтобы проверить возможности ИИ в сферах, требующих суждения, а не единственного правильного ответа.

«Крупные языковые модели (LLM) все чаще продвигаются как обучающие тьюторы, однако большинство оценок фокусируются на областях с единственной “истиной”», — написали исследователи. «Однако многие дисциплины зависят от суждения: рассуждения, взвешивания неоднозначности и достижения обоснованных выводов. Право — это особенно жесткая проверка».

Профессора оценивали пары ответов в слепых сравнениях, выбирая тот ответ, который они предпочли бы дать студенту, не зная, пришел ли ответ от ИИ или от преподавателя-человека.

Gemini 2.5 Pro и NotebookLM выигрывают в 75% сравнений с профессорами

Gemini 2.5 Pro от Google выиграла в 75,92% своих противостояний с преподавателями-людьми, а NotebookLM выигрывала в 74,75% случаев. Исследователи анализировали, отражают ли результаты более широкое профессиональное согласие, изучая частоту совпадений, когда профессора оценивали одни и те же пары ответов.

«Зафиксированное согласие превышало уровень, ожидаемый, если бы суждения были полностью индивидуалистичными, что указывает: успех LLM отражает согласование с общими дисциплинарными критериями», — написали исследователи.

ИИ-модели обгоняли преподавателей-людей в нескольких категориях, включая вопросы на воспроизведение, связанные с делом, кодом или доктриной, гипотетические ситуации и обсуждения вопросов политики. Исследование проверяло, связаны ли преимущества ИИ с поверхностным стилем письма, а не с содержанием, анализируя лексико-синтаксические характеристики, такие как длина ответа, структурная организация, нюансы рассуждений, юридические “якоря”, тон уверенности, ясность и педагогическая поддержка.

В отдельном анализе дополнительных моделей Anthropic’s Claude Opus 4.7 занял первое место, за ним следовали OpenAI’s ChatGPT 5.4 и Gemini 2.5 Pro. Все оценивавшиеся ИИ-модели в среднем показали результат лучше, чем преподаватели-люди.

У ИИ отмечаются более низкие показатели вредоносности, чем у преподавателей-людей

ИИ-сгенерированные ответы помечались как вредоносные реже, чем ответы, написанные профессорами. Gemini зафиксировала 3,41% вредоносности, а NotebookLM — 3,64%, тогда как у преподавателей-людей этот показатель составлял 12,06%.

Исследователи отметили, что в исследовании не измерялось, совпадают ли ответы с индивидуальными предпочтениями преподавателей. «Хотя ответы LLM в целом предпочитаются ответам преподавателей-людей, наша оценочная среда не позволяет нам напрямую измерить, в какой степени удовлетворяются предпочтения преподавателей», — говорится в исследовании. «По крайней мере теоретически возможно, что, хотя LLM обычно выдают более сильные ответы, они все равно генерируют ответы, которые просто считаются “достаточно хорошими”».

Суд Лос-Анджелеса и юридические школы внедряют ИИ-инструменты

В марте Верховный суд Лос-Анджелеса начал тестирование ИИ-инструментов, чтобы помогать судьям справляться с растущей нагрузкой по делам. Юридические школы добавляют программы обучения ИИ по мере того, как юридическая профессия интегрирует искусственный интеллект.

«Потенциальные преимущества этих новых технологий как усилителя эффективности в юридической практике просто нельзя игнорировать», — заявил Decrypt декан юридической школы Mississippi College School of Law Джон П. Андерсон (John P. Anderson). «Планируют ли наши студенты быть судебными юристами или заниматься сделками, их будущие работодатели будут ожидать знакомства с этими ИИ-инструментами. Мы хотим, чтобы фирмы, нанимающие наших студентов, были уверены: каждый выпускник MC Law компетентен в ИИ-технологиях».

Sullivan & Cromwell признает фальшивые ИИ-ссылки в документах по банкротству

Юридические фирмы по-прежнему сталкиваются с делами, подорванными галлюцинациями и другими ошибками, сгенерированными ИИ. В апреле юридическая фирма Sullivan & Cromwell признала в суде США по делам о банкротстве, что недавняя подача в громком деле содержала фальшивые ссылки, сгенерированные ИИ.

FAQ

Какой процент времени преподаватели права предпочитали ответы, сгенерированные ИИ, ответам, написанным людьми, в стэнфордском исследовании?

Преподаватели права предпочитали ответы, сгенерированные ИИ, примерно в 75% случаев в стэнфордском исследовании. Gemini 2.5 Pro от Google выиграла в 75,92% своих противостояний с преподавателями-людьми, а NotebookLM выиграла в 74,75% случаев в рамках 2 918 слепых сравнений.

Как в исследовании показатели вредоносности у ИИ соотносились с ответами преподавателей-людей?

ИИ-сгенерированные ответы демонстрировали более низкие показатели вредоносности, чем ответы преподавателей-людей. У Gemini была вредоносность 3,41%, у NotebookLM — 3,64%, тогда как у преподавателей-людей этот показатель составлял 12,06%.

Какие ИИ-инструменты тестирует Верховный суд Лос-Анджелеса?

Верховный суд Лос-Анджелеса начал тестирование ИИ-инструментов в марте, чтобы помогать судьям управлять растущей нагрузкой по делам, хотя конкретные инструменты в источнике не были указаны.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев