Проблема з SWE-bench: чому наша гонка LLM побудована на піску 1) У світі ЛМ орієнтирами є табло. Компанії представляють цифри інвесторам, користувачам і громадськості так, ніби вони представляють «інтелект». Але найбільш розкручений бенчмарк SWE-bench-verified виявляється глибоко недосконалим. Давайте розпакуємо, чому 👇
481