novo blog: Como escalar RL para 10^26 FLOPs todo mundo está tentando descobrir a maneira certa de escalar o raciocínio com RL Comparamos a Internet aos combustíveis fósseis: podem ser os únicos dados úteis de que dispomos. e é dispensável talvez devêssemos aprender a raciocinar com a Internet (não apenas matemática e código)
75,99K