Menurut Beating, perusahaan penilai AI Vals AI merilis benchmark Finance Agent generasi kedua v2 pada 14 Mei, menguji alur kerja analisis keuangan melalui 927 pertanyaan yang ditinjau oleh para ahli. GPT-5.5 memuncaki peringkat dengan tingkat akurasi 51,76%, disusul ketat oleh Claude Opus 4.7 (51,51%) dan Claude Sonnet 4.6 (51,03%). Pengujian menuntut model untuk secara mandiri menemukan bagian-bagian relevan di ratusan halaman dokumen laporan keuangan 10-K dan 10-Q serta menyelesaikan perhitungan multi-langkah dengan angka antara yang presisi.
Dengan standar penilaian yang ketat yang mengharuskan jawaban benar sepenuhnya, semua model terdepan mencatat tingkat akurasi di bawah 40%, sementara kategori tersulit—financial modeling dan precedent analysis—hanya mencapai maksimal 23%. Di antara model lainnya, Kimi K2.6 menempati peringkat kelima dengan 44,87%, diikuti GLM 5.1 (44,79%) dan DeepSeek V4 (44,08%). Dibandingkan versi sebelumnya ketika Opus 4.7 mencetak 64,4%, penurunan yang signifikan menegaskan bahwa meski AI dapat menangani penelusuran yang sederhana, AI masih jauh dari menggantikan analis manusia dalam domain keuangan yang kompleks dan menuntut ketelitian numerik yang ketat.
Related News
Para Pakar: Zk Proofs Memberi Keunggulan bagi DePIN saat Kebutuhan Kepercayaan untuk AI Meningkat
Fidelity mendukung secara terbuka RUU CLARITY, dengan mengatakan bahwa RUU tersebut menawarkan pendekatan regulasi yang seimbang
Mistral AI berdiskusi dengan bank-bank Eropa untuk mengembangkan model keamanan siber Mythos sebagai pengganti.