Profesor Hukum Lebih Memilih Jawaban AI Dibanding Respon Manusia 75% dari Waktu dalam Studi Stanford

Peneliti Universitas Stanford menemukan bahwa profesor hukum lebih memilih jawaban hukum yang dihasilkan AI dibandingkan yang ditulis oleh sesama profesor sekitar 75% dari waktu dalam studi terbaru. Dalam 2.918 perbandingan buta, 16 profesor dari 14 sekolah hukum AS memilih respons Google Gemini 2.5 Pro sebanyak 75,92% dan respons NotebookLM sebanyak 74,75% dibanding jawaban yang diberikan oleh instruktur manusia. Studi ini menguji apakah model bahasa besar dapat menyesuaikan dengan standar penalaran hukum profesional di berbagai aspek doktrin hukum, hukum preseden, skenario hipotetis, dan isu kebijakan, seiring sekolah hukum dan pengadilan yang semakin mengintegrasikan alat AI ke dalam praktik hukum.

Studi Stanford Menguji AI Melawan Profesor Hukum untuk Pertanyaan Kontrak

Studi ini melibatkan 16 profesor dari 14 sekolah hukum AS, termasuk Stanford, Yale, New York University, University of Chicago, Georgetown, UCLA, dan University of Virginia. Para profesor menyusun 40 pertanyaan hukum kontrak yang mencakup doktrin hukum, hukum preseden, skenario hipotetis, serta isu kebijakan. Peneliti merancang evaluasi untuk menguji kemampuan AI pada ranah yang memerlukan penilaian, bukan jawaban tunggal yang benar.

"Model bahasa besar (LLM) semakin dipromosikan sebagai tutor pendidikan, namun sebagian besar evaluasi berfokus pada ranah dengan satu kebenaran dasar," tulis para peneliti. "Namun, banyak disiplin bergantung pada penilaian: penalaran, menimbang ambiguitas, dan mencapai kesimpulan yang dapat dipertanggungjawabkan. Hukum memberikan uji yang tajam."

Para profesor mengevaluasi pasangan jawaban dalam perbandingan buta, memilih respons yang lebih mereka sukai untuk diberikan kepada seorang siswa tanpa mengetahui apakah jawaban tersebut berasal dari AI atau instruktur manusia.

Gemini 2.5 Pro dan NotebookLM Menang dalam 75% Perbandingan Profesor

Gemini 2.5 Pro milik Google menang 75,92% dari pertandingannya melawan instruktur manusia, sementara NotebookLM menang 74,75% dari waktu. Para peneliti menganalisis apakah hasil mencerminkan konsensus profesional yang lebih luas dengan meneliti tingkat kesepakatan saat profesor menilai pasangan jawaban yang sama.

"Kesepakatan yang diamati melampaui tingkat yang diharapkan jika penilaian sepenuhnya bersifat idiosinkratik, yang menunjukkan bahwa keberhasilan LLM mencerminkan keselarasan dengan kriteria disiplin yang umum," tulis para peneliti.

Model AI mengungguli instruktur manusia di berbagai kategori, termasuk pertanyaan hafalan yang berkaitan dengan kasus, kode, atau doktrin, skenario hipotetis, dan diskusi kebijakan. Studi ini menguji apakah keunggulan AI berasal dari gaya penulisan level permukaan, bukan konten substantif, dengan menganalisis fitur leksiko-sintaksis seperti panjang jawaban, organisasi struktural, nuansa penalaran, jangkar hukum, nada keyakinan, kejelasan, dan dukungan pedagogis.

Dalam analisis terpisah terhadap model tambahan, Anthropic's Claude Opus 4.7 berada di peringkat pertama, diikuti oleh OpenAI's ChatGPT 5.4 dan Gemini 2.5 Pro. Setiap model AI yang dievaluasi mengungguli instruktur manusia secara rata-rata.

Model AI Mencatat Tingkat Keberbahayaan Lebih Rendah daripada Instruktur Manusia

Jawaban yang dihasilkan AI ditandai sebagai berbahaya lebih jarang dibandingkan jawaban yang ditulis oleh profesor. Gemini mencatat tingkat keberbahayaan 3,41% dan NotebookLM mencatat 3,64%, dibandingkan 12,06% untuk instruktur manusia.

Para peneliti mencatat bahwa studi ini tidak mengukur apakah jawaban sesuai dengan preferensi mengajar individual tiap profesor. "Meskipun respons LLM umumnya lebih disukai dibandingkan respons instruktur manusia, pengaturan evaluasi kami tidak memungkinkan kami untuk mengukur secara langsung sejauh mana preferensi instruktur terpenuhi," bunyi pernyataan studi tersebut. "Setidaknya secara teoritis, mungkin bahwa meskipun LLM secara umum menyampaikan respons yang lebih kuat, mereka masih menghasilkan jawaban yang hanya dipandang 'cukup bagus.'"

Pengadilan Los Angeles dan Sekolah Hukum Mengadopsi Alat AI

Pengadilan Superior Los Angeles mulai menguji alat AI pada bulan Maret untuk membantu para hakim mengelola beban perkara yang terus meningkat. Sekolah-sekolah hukum menambahkan program pelatihan AI seiring profesi hukum mengintegrasikan kecerdasan buatan.

"Potensi manfaat teknologi baru ini sebagai pengganda kekuatan dalam praktik hukum benar-benar tidak bisa diabaikan," kata Dekan School of Law Mississippi College John P. Anderson kepada Decrypt. "Terlepas dari apakah mahasiswa kami berencana menjadi pengacara litigasi atau pengacara transaksi, masa depan pekerjaan mereka akan mengharapkan keakraban dengan alat AI ini. Kami ingin firma yang merekrut mahasiswa kami yakin bahwa setiap lulusan MC Law kompeten dalam teknologi AI."

Sullivan & Cromwell Mengakui Sitasi AI Palsu dalam Pengajuan Kepailitan

Firma hukum terus menghadapi kasus yang dirusak oleh halusinasi dan kesalahan lain yang dihasilkan AI. Pada bulan April, firma hukum Sullivan & Cromwell mengakui kepada pengadilan kepailitan AS bahwa pengajuan terbaru dalam perkara profil tinggi berisi sitasi palsu yang dibuat oleh AI.

FAQ

Berapa persen waktu profesor hukum lebih memilih jawaban yang dihasilkan AI dibandingkan jawaban buatan manusia dalam studi Stanford?

Profesor hukum lebih memilih jawaban yang dihasilkan AI sekitar 75% dari waktu dalam studi Stanford. Gemini 2.5 Pro milik Google menang 75,92% dari pertandingannya melawan instruktur manusia, sementara NotebookLM menang 74,75% dari waktu dalam 2.918 perbandingan buta.

Bagaimana perbandingan tingkat keberbahayaan AI dengan respons instruktur manusia dalam studi?

Jawaban yang dihasilkan AI mencatat tingkat keberbahayaan yang lebih rendah dibanding respons instruktur manusia. Gemini memiliki tingkat keberbahayaan 3,41% dan NotebookLM memiliki tingkat 3,64%, dibandingkan 12,06% untuk instruktur manusia.

Alat AI apa yang sedang diuji oleh Pengadilan Superior Los Angeles?

Pengadilan Superior Los Angeles mulai menguji alat AI pada bulan Maret untuk membantu para hakim mengelola beban perkara yang terus meningkat, meskipun alat spesifiknya tidak diidentifikasi dalam sumber.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar