Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI jasně uvedla, že hodnocení by měla "dělat nejasné cíle konkrétními a explicitními" a že frontier hodnocení musí být spojena s kontextovými hodnoceními, která odpovídají skutečným pracovním postupům, nikoli s promptovými hřišti:
Co @shyamalanadkat, vedoucí aplikovaných evaluací @OpenAI, popisuje, že existuje stejná smyčka, kterou chceme pro kódující agenty s cline-bench: sdílená zlatá sada těžkých, reálných programátorských úkolů, kde modely zápasily a lidé museli zasahovat, zabalená jako reprodukovatelná prostředí, aby laboratoře a týmy mohly specifikovat, jak vypadá "skvělé", měřit výkon za reálných podmínek, a zlepšovat se učením z konkrétních případů selhání:
Pokud chcete úplný kontext o tom, jak OpenAI přemýšlí o hodnoceních, úvod najdete zde:


Top
Hodnocení
Oblíbené

