Jeg er veldig sikker på at vi har samlet det største settet med IRL-oppgavebaserte evalueringer for kodeagenter som codex, claude code, cursor, amp, devin osv. i løpet av de siste ukene med @askModuAI Trenger å finne en måte å benchmarke offentlig tilgjengelig på
459