Wir veröffentlichen BrowseComp, was für Browsing Competition steht. 🏎️ Stellen Sie sich das wie Programmier- oder Mathematikwettbewerbe vor – diese Wettbewerbe spiegeln zwar nicht perfekt die reale SWE- oder mathematische Forschung wider, aber sie fangen einen Funken Intelligenz ein. Dies ist DER Maßstab, auf den wir achten sollten, wenn wir die Intelligenz von Deep Research-ähnlichen Browsing-Agenten bewerten.
OpenAI
OpenAI11. Apr. 2025
Wir machen BrowseComp („Browsing Competition“) Open Source, ein neuer, herausfordernder Benchmark, der darauf abzielt, zu testen, wie gut KI-Agenten im Internet nach schwer zu findenden Informationen suchen können. Es ist wie eine Online-Schnitzeljagd... aber für Browsing-Agenten.
464,97K