وجد باحثون في جامعة ستانفورد أن أساتذة القانون فضّلوا إجابات قانونية مولّدة بالذكاء الاصطناعي على تلك المكتوبة من قبل زملائهم الأساتذة بنحو 75% من الوقت في دراسة حديثة. وفي 2,918 مقارنةٍ مُموّهة، اختار 16 أستاذًا من 14 كلية حقوق أمريكية ردود Gemini 2.5 Pro من Google بنسبة 75.92% من المرات، وردود NotebookLM بنسبة 74.75% من المرات، على إجابات المُدرّسين من البشر. اختبرت الدراسة ما إذا كانت نماذج اللغات الكبيرة قادرة على مواءمة معايير التفكير القانوني المهنية عبر المذهب القانوني وسوابق الأحكام والمسائل الافتراضية والقضايا المتعلقة بالسياسات، في وقت تدمج فيه كليات الحقوق والمحاكم أدوات الذكاء الاصطناعي بشكل متزايد في الممارسة القانونية.
Stanford Study Tests AI Against Law Professors on Contract Law Questions
شملت الدراسة 16 أستاذًا من 14 كلية حقوق أمريكية، بما فيها ستانفورد وييل وجامعة نيويورك وجامعة شيكاغو وجورج تاون وUCLA وجامعة فيرجينيا. أنشأ الأساتذة 40 سؤالًا في قانون العقود تغطي المذهب القانوني وسوابق الأحكام والمسائل الافتراضية والقضايا المتعلقة بالسياسات. صمّم الباحثون التقييم لاختبار قدرات الذكاء الاصطناعي في المجالات التي تتطلب حكمًا لا إجابة صحيحة واحدة.
قال الباحثون: "تُروَّج نماذج اللغات الكبيرة (LLMs) بشكل متزايد باعتبارها مُعلّمين خصوصيين في التعليم، لكن معظم التقييمات تركز على مجالات تمتلك حقيقةً واحدةً مُثبتة". وأضافوا: "غير أن كثيرًا من التخصصات تعتمد على الحكم: الاستدلال، والموازنة بين حالات الغموض، والوصول إلى استنتاجات يمكن الدفاع عنها. والقانون يوفّر اختبارًا صارمًا".
قيّم الأساتذة أزواج الإجابات في مقارنات مُموّهة، واختاروا الرد الذي يفضّلونه تقديمه لطالب دون معرفة ما إذا كانت الإجابة صادرة من ذكاء اصطناعي أو من مُدرّس بشري.
Gemini 2.5 Pro وNotebookLM تفوزان في 75% من مقارنات الأساتذة
فازت Gemini 2.5 Pro من Google في 75.92% من مواجهاتها مع المُدرّسين البشر، بينما فازت NotebookLM في 74.75% من المرات. حلّل الباحثون ما إذا كانت النتائج تعكس إجماعًا مهنيًا أوسع عبر فحص معدلات الاتفاق عندما قيّم الأساتذة أزواج الإجابات نفسها.
كتب الباحثون: "تجاوزت نسبة الاتفاق المرصودة المستوى المتوقع إذا كانت الأحكام فردية تمامًا، ما يشير إلى أن نجاح نماذج LLM يعكس مواءمة مع معايير مشتركة داخل التخصص".
تفوقت نماذج الذكاء الاصطناعي على المُدرّسين البشر عبر فئات متعددة، بما في ذلك أسئلة الاستدعاء المتعلقة بالقضية أو الشيفرة أو المذهب، والمسائل الافتراضية، ونقاشات السياسات. اختبرت الدراسة ما إذا كانت مزايا الذكاء الاصطناعي تنبع من أسلوب الكتابة على السطح بدلًا من المحتوى الجوهري عبر تحليل سمات معجمية-تركيبية مثل طول الإجابة، والتنظيم البنيوي، وفروق الدقة في الاستدلال، والمرتكزات القانونية، ونبرة الثقة، ووضوح العرض، والدعم التربوي.
في تحليل منفصل لنماذج إضافية، جاء Claude Opus 4.7 من Anthropic في المرتبة الأولى، تلاه ChatGPT 5.4 من OpenAI وGemini 2.5 Pro. تفوقت كل نماذج الذكاء الاصطناعي التي جرى تقييمها على المُدرّسين البشر في المتوسط.
نماذج الذكاء الاصطناعي تسجل معدلات ضرر أقل من المُدرّسين البشر
تم وسم إجابات الذكاء الاصطناعي على أنها ضارة بمعدل أقل من تلك المكتوبة بواسطة الأساتذة. سجلت Gemini معدل ضرر قدره 3.41%، بينما سجلت NotebookLM معدل 3.64%، مقارنةً بـ 12.06% بالنسبة للمُدرّسين البشر.
أشار الباحثون إلى أن الدراسة لم تقِس ما إذا كانت الإجابات تتطابق مع تفضيلات التدريس الفردية لكل أستاذ. وجاء في الدراسة: "على الرغم من أن إجابات نماذج LLM تُفضَّل عمومًا على إجابات المُدرّسين البشر، فإن إعداد تقييمنا لا يسمح لنا بقياس مباشرة مدى تلبية تفضيلات المُدرّسين". وأضافوا: "من الممكن نظريًا على الأقل أن نماذج LLM، رغم أنها تقدم إجابات أقوى عمومًا، لا تزال تُنتج إجابات يُنظر إليها فقط على أنها 'جيدة بما يكفي'".
محكمة لوس أنجلِس العليا وكليات الحقوق تعتمد أدوات ذكاء اصطناعي
بدأت محكمة لوس أنجلِس العليا اختبار أدوات ذكاء اصطناعي في مارس/آذار للمساعدة في تمكين القضاة من إدارة الأعباء المتزايدة من القضايا. تضيف كليات الحقوق برامج تدريب على الذكاء الاصطناعي مع اندماج الذكاء الاصطناعي الاصطناعي في المهنة القانونية.
قال عميد كلية الحقوق في كلية مِسيسيبي جون بي. أندرسون لموقع Decrypt: "لا يمكن تجاهل الفوائد المحتملة لهذه التقنيات الجديدة بوصفها مضاعفًا للقوة في ممارسة القانون". وأضاف: "سواء كان طلابنا يخططون لأن يصبحوا محامين مترافعين أو محامين تعاقديين، فإن أصحاب العمل في مستقبلهم سيتوقعون الإلمام بهذه أدوات الذكاء الاصطناعي. نريد للجهات التي توظّف طلابنا أن تكون واثقة من أن كل خريج من MC Law كفء في تقنيات الذكاء الاصطناعي".
Sullivan & Cromwell تعترف باقتباسات مزيفة مولّدة بالذكاء الاصطناعي في طلب إفلاس
تواصل شركات المحاماة مواجهة قضايا تُقوَّض بسبب الهلاوس وأخطاء أخرى ناتجة عن الذكاء الاصطناعي. في أبريل/نيسان، اعترفت شركة Sullivan & Cromwell أمام محكمة إفلاس أمريكية بأن طلبًا حديثًا في قضية بارزة احتوى على اقتباسات مزيفة جرى توليدها بواسطة الذكاء الاصطناعي.
FAQ
ما النسبة المئوية للوقت التي فضّل فيها أساتذة القانون إجابات مولّدة بالذكاء الاصطناعي على إجابات مكتوبة من البشر في دراسة ستانفورد؟
فضّل أساتذة القانون إجابات مولّدة بالذكاء الاصطناعي بنحو 75% من الوقت في دراسة ستانفورد. فازت Gemini 2.5 Pro من Google في 75.92% من مواجهاتها مع المُدرّسين البشر، بينما فازت NotebookLM بنسبة 74.75% من المرات عبر 2,918 مقارنة مُموّهة.
كيف قارنت معدلات ضرر إجابات الذكاء الاصطناعي بردود المُدرّسين البشر في الدراسة؟
سجلت إجابات الذكاء الاصطناعي معدلات ضرر أقل من ردود المُدرّسين البشر. بلغ معدل ضرر Gemini 3.41% ومعدل NotebookLM 3.64%، مقارنةً بـ 12.06% بالنسبة للمُدرّسين البشر.
ما أدوات الذكاء الاصطناعي التي تختبرها محكمة لوس أنجلِس العليا؟
بدأت محكمة لوس أنجلِس العليا اختبار أدوات ذكاء اصطناعي في مارس/آذار للمساعدة في تمكين القضاة من إدارة الأعباء المتزايدة من القضايا، لكن لم يتم تحديد الأدوات المحددة في المصدر.