法律教授偏好 AI 回答而非人類回覆,在史丹佛研究中有 75% 的時間

史丹佛大學研究人員發現,在近期一項研究中,法學教授在大約 75% 的情況下更偏好 AI 生成的契約法答案,而非同儕教授撰寫的答案。在 2,918 次匿名對比中,來自 14 所美國法學院的 16 位教授選擇了 Google 的 Gemini 2.5 Pro 回覆的比例為 75.92%,選擇 NotebookLM 回覆的比例為 74.75%,且兩者皆高於人類授課教師的答案。該研究測試大型語言模型是否能在法律理論、判例法、假設情境與政策議題等領域,與專業法律推理標準相一致;隨著法學院與法院愈來愈整合 AI 工具進入法律實務。

史丹佛研究以契約法問題測試 AI 對上法學教授

該研究包含來自 14 所美國法學院的 16 位教授,包括史丹佛、耶魯、紐約大學、芝加哥大學、喬治城大學、UCLA,以及維吉尼亞大學。這些教授出題 40 道契約法問題,涵蓋法律理論、判例法、假設情境與政策議題。研究人員設計評估,以測試 AI 在需要判斷而非單一正確答案的領域中的能力。

「大型語言模型(LLM)越來越常被宣傳為教育家教,但多數評估聚焦在只有單一『正確答案』的領域,」研究人員寫道。「然而,許多學科都依賴判斷:推理、權衡模糊性,並得出可辯護的結論。法律提供了一個嚴格的測試。」

教授們在匿名對比中評估成對答案,選出他們希望給學生的那個回覆,而不知該答案來自 AI 還是人類授課教師。

Gemini 2.5 Pro 與 NotebookLM 在 75% 的教授對比中勝出

Google 的 Gemini 2.5 Pro 在與人類授課教師的對決中贏得了 75.92%,而 NotebookLM 則在 74.75% 的情況下勝出。研究人員分析結果是否反映更廣泛的專業共識,方法是查看當教授評估相同成對答案時的同意率。

「觀察到的一致性超過了若判斷完全是個人化差異所預期的水準,這表明 LLM 的成功反映了其與共同的學科判準之間的一致性,」研究人員寫道。

AI 模型在多個類別均優於人類授課教師,包括與判例、程式碼或法律理論相關的回憶問題、假設情境,以及政策討論。該研究透過分析詞彙句法特徵,例如答案長度、結構組織、推理細緻度、法律錨點、信心語氣、清晰度與教學支援,以測試 AI 優勢是否源自表面寫作風格,而非實質內容。

在另一項針對更多模型的分析中,Anthropic 的 Claude Opus 4.7 排名第一,其後依序為 OpenAI 的 ChatGPT 5.4 與 Gemini 2.5 Pro。每一個被評估的 AI 模型平均都優於人類授課教師。

AI 模型的危害性比率低於人類授課教師

AI 生成的答案被標記為有害的頻率,比教授撰寫的答案更低。Gemini 記錄的危害性比率為 3.41%,NotebookLM 記錄為 3.64%,而人類授課教師為 12.06%。

研究人員指出,該研究未衡量答案是否符合每位教授的個人教學偏好。「雖然 LLM 回覆通常比人類授課教師的回覆更受青睞,但我們的評估情境無法讓我們直接衡量在多大程度上滿足了授課教師的偏好,」研究指出。「至少在理論上是可能的:即便 LLM 通常能提供更強的回覆,它仍可能生成那些僅被視為『已足夠好』的答案。」

洛杉磯法院與法學院採用 AI 工具

洛杉磯高等法院在 3 月開始測試 AI 工具,以協助法官管理不斷增加的案件量。隨著法律職業整合人工智慧,法學院正新增 AI 訓練計畫。

「把這些新技術當作『倍增器』來運用於法律實務,其潛在益處絕對不能被忽視,」密西西比學院法學院院長 John P. Anderson 對 Decrypt 表示。「不論我們的學生是計畫成為訴訟律師或交易律師,他們未來的雇主都會期待他們具備這些 AI 工具的熟悉度。我們希望聘用我們學生的律所能夠確信,每一位 MC Law 畢業生在 AI 技術方面都具備能力。」

Sullivan & Cromwell 在破產申請中承認偽造的 AI 引註

律師事務所仍持續面對被幻覺與其他由 AI 生成的錯誤所削弱的案件。4 月,律師事務所 Sullivan & Cromwell 承認:其在一個備受關注的案件中的近期申請,包含了由 AI 生成的偽造引註,並向美國破產法院提交承認。

FAQ

在史丹佛研究中,法學教授偏好 AI 生成答案的比例是多少?

在史丹佛研究中,法學教授在大約 75% 的情況下偏好 AI 生成的答案。Google 的 Gemini 2.5 Pro 在與人類授課教師的對決中贏得了 75.92%,而 NotebookLM 則在 2,918 次匿名對比中贏得 74.75% 的比例。

在研究中,AI 的危害性比率如何與人類授課教師的回覆相比?

AI 生成的答案呈現較低的危害性比率。Gemini 的危害性比率為 3.41%,NotebookLM 的危害性比率為 3.64%,而人類授課教師為 12.06%。

洛杉磯高等法院正在測試哪些 AI 工具?

洛杉磯高等法院在 3 月開始測試 AI 工具,以協助法官管理不斷增加的案件量;不過,來源中未識別出具體工具。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆