GPT-5 mencapai akurasi 94,6% pada AIME 2025, menunjukkan penalaran matematis yang mendekati manusia. Namun minta untuk menanyakan database Anda, dan tingkat keberhasilan anjlok ke remaja. Tolok ukur Spider 2.0 mengungkapkan kesenjangan yang menguap dalam kemampuan AI. Spider 2.0 adalah tolok ukur teks-ke-SQL komprehensif yang menguji kemampuan model AI untuk menghasilkan kueri SQL yang akurat dari pertanyaan bahasa alami di seluruh database dunia nyata. Sementara model bahasa besar telah menaklukkan pekerjaan pengetahuan dalam matematika, pengkodean, dan penalaran, text-to-SQL tetap sulit secara keras kepala. Tiga tolok ukur Spider 2.0 menguji kueri database dunia nyata di berbagai lingkungan. Spider 2.0-Snow menggunakan database Snowflake dengan 547 contoh pengujian, memuncak pada akurasi 59,05%. Spider 2.0-Lite mencakup BigQuery, Snowflake, dan SQLite dengan 547 contoh lainnya, hanya mencapai 37,84%. Spider 2.0-DBT menguji pembuatan kode terhadap DuckDB dengan 68 contoh, mencapai 39,71%. Kesenjangan kinerja ini bukan karena kurang mencoba. Sejak November 2024, 56 pengajuan dari 12 keluarga model telah bersaing dalam tolok ukur ini. Claude, OpenAI, DeepSeek, dan lainnya semuanya telah mendorong model mereka melawan pengujian ini. Kemajuan telah stabil, dari sekitar 2% menjadi sekitar 60%, dalam sembilan bulan terakhir. Teka-teki semakin dalam ketika Anda mempertimbangkan batasan SQL. SQL memiliki kosakata yang terbatas dibandingkan dengan bahasa Inggris, yang memiliki 600.000 kata, atau bahasa pemrograman yang memiliki sintaks dan pustaka yang jauh lebih luas untuk diketahui. Ditambah lagi, ada banyak SQL di luar sana untuk dilatih. Jika ada, ini seharusnya lebih mudah daripada tugas penalaran terbuka di mana model sekarang unggul. Namun bahkan generasi SQL yang sempurna tidak akan menyelesaikan tantangan bisnis yang sebenarnya. Setiap perusahaan mendefinisikan "pendapatan" secara berbeda. Pemasaran mengukur biaya akuisisi pelanggan berdasarkan pengeluaran kampanye, penjualan menghitungnya menggunakan biaya eksekutif akun, dan keuangan mencakup pengeluaran karyawan yang termuat penuh. Perbedaan semantik ini menciptakan kebingungan yang tidak dapat diselesaikan oleh akurasi teknis. Hasil Spider 2.0 menunjukkan kebenaran mendasar tentang pekerjaan data. Kemahiran teknis dalam sintaks SQL hanyalah titik masuk. Tantangan sebenarnya terletak pada konteks bisnis. Memahami arti data, bagaimana tim yang berbeda mendefinisikan metrik, dan kapan kasus edge penting. Seperti yang saya tulis di Semantic Cultivators, jembatan antara data mentah dan makna bisnis membutuhkan penilaian manusia yang tidak dapat ditiru oleh AI saat ini.
7,64K