O problema com o banco SWE: por que nossa corrida LLM é construída na areia 1) No mundo dos LLMs, os benchmarks são o placar. As empresas apresentam números para investidores, usuários e público como se representassem "inteligência". Mas o benchmark mais badalado verificado pela SWE acaba sendo profundamente falho. Vamos desvendar o porquê 👇
528