Por qué debería dejar de trabajar en la investigación de RL y en su lugar trabajar en el producto // La tecnología que desbloqueó el gran cambio de escala en la IA es Internet, no transformadores Creo que es bien sabido que los datos son lo más importante en la IA, y también que los investigadores eligen no trabajar en ellos de todos modos. ... ¿Qué significa trabajar con datos (de forma escalable)? Internet proporcionó una rica fuente de datos abundantes, que era diversa, proporcionó un plan de estudios natural, representó las competencias que realmente le importan a las personas y fue una tecnología económicamente viable para implementar a escala: se convirtió en el complemento perfecto para la predicción del próximo token y fue la sopa primordial para que la IA despegara. Sin transformadores, cualquier número de enfoques podría haber despegado, probablemente podríamos tener CNN o modelos de espacio de estados al nivel de GPT-4.5. Pero no ha habido una mejora dramática en los modelos base desde GPT-4. Los modelos de razonamiento son excelentes en dominios estrechos, pero no tan grandes como lo fue GPT-4 en marzo de 2023 (hace más de 2 años...) Tenemos algo grandioso con el aprendizaje por refuerzo, pero mi profundo temor es que repitamos los errores del pasado (RL de la era 2015-2020) y hagamos una investigación de RL que no importa. De la misma manera que Internet era el dual de preentrenamiento supervisado, ¿cuál será el dual de RL que conducirá a un avance masivo como GPT-1 -> GPT-4? Creo que parece un codiseño de investigación y producto.
389,96K