En 6-personers startup med $500k har just överträffat Microsoft! OpenAI:s MLE-Bench är ett riktmärke som testar agenter på tekniska uppgifter inom maskininlärning. NEO @withneo, den första autonoma MLE-agenten, fick 34,2 % jämfört med Microsofts 22,4 % i benchmarktestet. Det här är enormt!
5,79K