Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Actualizaciones de gráficos cognitivos
Según el toro de IA Andrej Karpathy, en la era previa al entrenamiento, la clave son los datos de texto de Internet; En la era de la supervisión del ajuste fino, la clave es el conocimiento estructurado del estilo de preguntas y respuestas de Zhihu y Stackflow; En la era del aprendizaje intensivo, la clave es un entorno diverso.
La pista AI x Crypto, que se centra en la tokenización de activos de IA, tiene un nuevo activo de IA tokenizable: el entorno además de la potencia informática, los datos, los modelos y los agentes tradicionales

hace 21 horas
En la era del preentrenamiento, lo que importaba era el texto de Internet. Principalmente querrá una colección grande, diversa y de alta calidad de documentos de Internet para aprender.
En la era del ajuste supervisado, eran conversaciones. Los trabajadores contratados son contratados para crear respuestas a preguntas, un poco como lo que verías en Stack Overflow / Quora, etc., pero orientado a casos de uso de LLM.
Ninguno de los dos anteriores va a desaparecer (en mi opinión), pero en esta era de aprendizaje por refuerzo, ahora son los entornos. A diferencia de lo anterior, le dan al LLM la oportunidad de interactuar realmente: tomar medidas, ver resultados, etc. Esto significa que puede esperar hacerlo mucho mejor que la imitación de expertos estadísticos. Y se pueden utilizar tanto para el entrenamiento como para la evaluación de modelos. Pero al igual que antes, el problema central ahora es la necesidad de un conjunto de entornos grandes, diversos y de alta calidad, como ejercicios para que el LLM practique.
De alguna manera, me recuerda al primer proyecto de OpenAI (gimnasio), que era exactamente un marco con la esperanza de construir una gran colección de entornos en el mismo esquema, pero esto fue mucho antes de los LLM. Así que los entornos eran simples tareas de control académico de la época, como cartpole, ATARI, etc. El centro de entornos @PrimeIntellect (y el repositorio de 'verificadores' en GitHub) crea la versión modernizada dirigida específicamente a los LLM, y es un gran esfuerzo / idea. Propuse que alguien construyera algo así a principios de este año:
Los entornos tienen la propiedad de que una vez que el esqueleto del marco está en su lugar, en principio, la comunidad / industria puede paralelizar en muchos dominios diferentes, lo cual es emocionante.
Pensamiento final: personalmente y a largo plazo, soy optimista sobre los entornos y las interacciones agenciales, pero soy bajista sobre el aprendizaje por refuerzo específicamente. Creo que las funciones de recompensa son súper sus, y creo que los humanos no usan RL para aprender (tal vez lo hacen para algunas tareas motoras, etc., pero no para tareas de resolución de problemas intelectuales). Los humanos usan diferentes paradigmas de aprendizaje que son significativamente más poderosos y eficientes en el muestreo y que aún no se han inventado y escalado adecuadamente, aunque existen los primeros bocetos e ideas (como solo un ejemplo, la idea de "aprendizaje rápido del sistema", moviendo la actualización a tokens/contextos no a pesos y opcionalmente destilando a pesos como un proceso separado un poco como lo hace el sueño).
2.56K
Populares
Ranking
Favoritas