GPT-5 đạt 94,6% độ chính xác trên AIME 2025, cho thấy khả năng suy luận toán học gần như con người. Tuy nhiên, khi yêu cầu nó truy vấn cơ sở dữ liệu của bạn, tỷ lệ thành công giảm xuống chỉ còn vài phần trăm. Các tiêu chuẩn Spider 2.0 tiết lộ một khoảng cách lớn trong khả năng của AI. Spider 2.0 là một tiêu chuẩn toàn diện về văn bản thành SQL, kiểm tra khả năng của các mô hình AI trong việc tạo ra các truy vấn SQL chính xác từ các câu hỏi bằng ngôn ngữ tự nhiên trên các cơ sở dữ liệu thực tế. Trong khi các mô hình ngôn ngữ lớn đã chinh phục công việc tri thức trong toán học, lập trình và suy luận, việc chuyển đổi văn bản thành SQL vẫn còn khó khăn. Ba tiêu chuẩn Spider 2.0 kiểm tra việc truy vấn cơ sở dữ liệu thực tế trong các môi trường khác nhau. Spider 2.0-Snow sử dụng cơ sở dữ liệu Snowflake với 547 ví dụ thử nghiệm, đạt đỉnh 59,05% độ chính xác. Spider 2.0-Lite trải dài trên BigQuery, Snowflake và SQLite với 547 ví dụ khác, chỉ đạt 37,84%. Spider 2.0-DBT kiểm tra việc tạo mã với DuckDB với 68 ví dụ, đạt tối đa 39,71%. Khoảng cách hiệu suất này không phải do thiếu nỗ lực. Kể từ tháng 11 năm 2024, 56 bài nộp từ 12 gia đình mô hình đã cạnh tranh trên các tiêu chuẩn này. Claude, OpenAI, DeepSeek và những người khác đều đã đưa các mô hình của họ vào các bài kiểm tra này. Tiến bộ đã diễn ra đều đặn, từ khoảng 2% đến khoảng 60%, trong chín tháng qua. Câu đố trở nên phức tạp hơn khi bạn xem xét các hạn chế của SQL. SQL có một từ vựng hạn chế so với tiếng Anh, vốn có 600.000 từ, hoặc các ngôn ngữ lập trình có cú pháp và thư viện rộng hơn nhiều. Hơn nữa, có rất nhiều SQL để đào tạo. Nếu có gì đó, điều này nên dễ hơn so với các nhiệm vụ suy luận mở mà các mô hình hiện nay xuất sắc. Tuy nhiên, ngay cả việc tạo SQL hoàn hảo cũng không giải quyết được thách thức thực sự trong kinh doanh. Mỗi công ty định nghĩa "doanh thu" theo cách khác nhau. Marketing đo lường chi phí thu hút khách hàng theo chi phí chiến dịch, bán hàng tính toán nó bằng cách sử dụng chi phí của nhân viên quản lý tài khoản, và tài chính bao gồm chi phí nhân viên đã được tính toán đầy đủ. Những khác biệt ngữ nghĩa này tạo ra sự nhầm lẫn mà độ chính xác kỹ thuật không thể giải quyết. Kết quả Spider 2.0 chỉ ra một sự thật cơ bản về công việc dữ liệu. Sự thành thạo kỹ thuật trong cú pháp SQL chỉ là điểm khởi đầu. Thách thức thực sự nằm ở bối cảnh kinh doanh. Hiểu dữ liệu có nghĩa là gì, cách các đội khác nhau định nghĩa các chỉ số, và khi nào các trường hợp ngoại lệ quan trọng. Như tôi đã viết trong Semantic Cultivators, cầu nối giữa dữ liệu thô và ý nghĩa kinh doanh cần có sự phán đoán của con người mà AI hiện tại không thể tái tạo.
7,65K