Il Problema con SWE-bench: Perché la nostra corsa agli LLM è costruita sulla sabbia 1) Nel mondo degli LLM, i benchmark sono il punteggio. Le aziende presentano numeri a investitori, utenti e al pubblico come se rappresentassero "intelligenza". Ma il benchmark più pubblicizzato, verificato da SWE-bench, si rivela essere profondamente difettoso. Analizziamo perché 👇
455