Wprowadzamy na rynek BrowseComp, co oznacza Browsing Competition. 🏎️ Pomyśl o tym jak o konkursach kodowania lub matematycznych - chociaż te konkursy mogą nie odzwierciedlać idealnie rzeczywistego SWE lub badań matematycznych, chwytają iskrę inteligencji. Jest to punkt odniesienia, na którym powinniśmy się zatroszczyć, oceniając inteligencję agentów przeglądania opartych na głębokich badaniach.
OpenAI
OpenAI11 kwi 2025
Udostępniamy kod źródłowy BrowseComp („Konkurs Przeglądania”), nowego, wymagającego benchmarku zaprojektowanego do testowania, jak dobrze agenci AI potrafią przeszukiwać internet w celu znalezienia trudno dostępnych informacji. To jak internetowe polowanie na skarby... ale dla agentów przeglądających.
464,97K