Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Actualización del mapa cognitivo
Según el experto en IA Andrej Karpathy, en la era del preentrenamiento, lo clave son los datos de texto de Internet; en la era del ajuste fino supervisado, lo clave son las estructuras de conocimiento estructurado de preguntas y respuestas de Zhihu y Stackoverflow; en la era del aprendizaje por refuerzo, lo clave son los entornos diversificados.
En la pista de AI x Crypto, centrada en la tokenización de activos de IA, además de la potencia de cálculo, los datos, los modelos y los agentes tradicionales, han surgido nuevos activos de IA que se pueden tokenizar: el entorno.

Hace 19 horas
En la era del preentrenamiento, lo que importaba era el texto de internet. Principalmente querrías una colección grande, diversa y de alta calidad de documentos de internet de los que aprender.
En la era del ajuste fino supervisado, eran las conversaciones. Se contratan trabajadores temporales para crear respuestas a preguntas, un poco como lo que verías en Stack Overflow / Quora, etc., pero orientadas a casos de uso de LLM.
Ninguno de los dos anteriores va a desaparecer (en mi opinión), pero en esta era del aprendizaje por refuerzo, ahora son los entornos. A diferencia de los anteriores, le dan a la LLM la oportunidad de interactuar realmente: tomar acciones, ver resultados, etc. Esto significa que puedes esperar hacer mucho mejor que la imitación experta estadística. Y pueden ser utilizados tanto para el entrenamiento como para la evaluación del modelo. Pero, al igual que antes, el problema central ahora es necesitar un conjunto grande, diverso y de alta calidad de entornos, como ejercicios para que la LLM practique.
En cierto modo, me recuerda al primer proyecto de OpenAI (gym), que era exactamente un marco que esperaba construir una gran colección de entornos en el mismo esquema, pero esto fue mucho antes de los LLM. Así que los entornos eran tareas de control académico simples de la época, como cartpole, ATARI, etc. El hub de entornos @PrimeIntellect (y el repositorio `verifiers` en GitHub) construye la versión modernizada específicamente dirigida a LLM, y es un gran esfuerzo/idea. Propuse que alguien construyera algo como esto a principios de este año:
Los entornos tienen la propiedad de que una vez que el esqueleto del marco está en su lugar, en principio la comunidad/industria puede paralelizarse en muchos dominios diferentes, lo cual es emocionante.
Pensamiento final: personalmente y a largo plazo, soy optimista sobre los entornos y las interacciones agentivas, pero soy pesimista sobre el aprendizaje por refuerzo específicamente. Creo que las funciones de recompensa son muy sospechosas, y creo que los humanos no utilizan el RL para aprender (quizás lo hagan para algunas tareas motoras, etc., pero no para tareas de resolución de problemas intelectuales). Los humanos utilizan paradigmas de aprendizaje diferentes que son significativamente más poderosos y eficientes en muestras y que aún no han sido inventados y escalados adecuadamente, aunque existen bocetos e ideas tempranas (como solo un ejemplo, la idea de "aprendizaje de indicaciones del sistema", moviendo la actualización a tokens/contextos y no a pesos y opcionalmente destilando a pesos como un proceso separado un poco como lo hace el sueño).
2,55K
Parte superior
Clasificación
Favoritos