neuer Blog: Wie man RL auf 10^26 FLOPs skaliert Jeder versucht, den richtigen Weg zu finden, um das Denken mit RL zu skalieren ilya verglich das Internet mit fossilen Brennstoffen: Es könnten die einzigen nützlichen Daten sein, die wir haben. und es ist entbehrlich vielleicht sollten wir lernen, aus dem Internet zu argumentieren (nicht nur aus Mathematik und Code)
75,97K