DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Ofta begränsas forskares förmåga att iterera på en förmåga av vår förmåga att mäta den förmågan. Jag tror att framstegen är mer begränsade än vad folk tror. Ibland känns evals kausala. följde SWE-Bench agentic coding, eller följde agentic coding SWE-bench? Vi hör ofta talas om att lösa uppgifter med riktigt lång horisont (veckor, månader), eller att det behövs kontinuerligt lärande för AGI, etc. Men var finns evalerna för att bevisa våra modellers brister här? Jag skulle gärna se att fler människor arbetade med AGI-kompletta utvärderingar, utvärderingar som verkligen spårar ekonomiskt värde och påverkan, månadslånga uppgifter, etc.

149,12K

Topp

Rankning

Favoriter