We brengen BrowseComp uit, wat staat voor Browsing Competition. 🏎️ Zie het als codeer- of wiskundewedstrijden - hoewel deze wedstrijden misschien niet perfect een weerspiegeling zijn van real-world SWE of wiskundig onderzoek, vangen ze wel een vonk van intelligentie op. Dit is DE maatstaf waar we om moeten geven bij het evalueren van de intelligentie van diepgaand onderzoek, zoals browse-agenten.
OpenAI
OpenAI11 apr 2025
We maken BrowseComp (“Browsing Competition”) open source, een nieuwe, uitdagende benchmark die is ontworpen om te testen hoe goed AI-agenten het internet kunnen doorbladeren om moeilijk te vinden informatie te vinden. Het is als een online speurtocht... maar dan voor browse-agents.
465K