Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Me pregunto qué pasaría si replicaras el estudio de mejora de la IA METR, pero para herramientas más mundanas.
Por ejemplo, complete esta solicitud de incorporación de cambios, pero no se permite el acceso a Internet.
No me sorprendería si la productividad mejorara (tal como lo hizo sin LLM)
Si es así, tal vez el estudio diga más sobre lo fácil que es distraerse (y cómo, mientras tenga otra opción, se negará a dedicar el esfuerzo cognitivo al corazón del problema) que sobre los asistentes de codificación de LLM específicamente.

METR11 jul 2025
Realizamos una prueba controlada aleatoria para ver cuánto aceleran las herramientas de codificación de IA a los desarrolladores de código abierto experimentados.
Los resultados nos sorprendieron: los desarrolladores pensaban que eran un 20% más rápidos con las herramientas de IA, pero en realidad eran un 19% más lentos cuando tenían acceso a la IA que cuando no lo tenían.

9.55K
De la publicación de @tobyordoxford.
¿Existe buena evidencia pública de cuán amplias son las habilidades que los LLM aprenden de RL?
Por ejemplo, ¿cuál es el ejemplo más convincente de aprendizaje por transferencia en RL? ¿Donde la capacitación en un entorno específico conduce a mejores capacidades en algunos dominios bastante diferentes?
Sé que una respuesta obvia aquí podría ser simplemente señalar GPT 5. Por mucho que sea mejor en el pensamiento general que GPT 4o probablemente se deba a RL.


Dwarkesh Patel20 sept, 01:44
Interesante publicación. Los bits / FLOP de RL son de 3 a 6 OOM más bajos que el preentrenamiento.
Aunque @tamaybes señaló que los fragmentos de RL pueden apuntar a las habilidades específicas que desea aprender. Mientras que el entrenamiento previo solo distribuye esos bits sobre el aprendizaje de relaciones ASCII aleatorias y un millón de otras cosas irrelevantes.
Además, para cualquier tarea dada, hay muchas decisiones cuya ejecución específica no importa mucho, y un par que realmente quieres clavar. RL puede concentrar la señal para aprender a no estropear los estados críticos en el episodio, en lugar de obtener cada token correcto. Imagen útil de una de las viejas conferencias de @svlevine (B es el estado crítico):
Creo que esto todavía se traduce en que RL es mucho menos denso en información que el entrenamiento previo. Y estoy de acuerdo con Toby en que la ganancia de inteligencia por FLOP de entrenamiento de RL env será menor de lo que muchos suponen.
Trabajando en una publicación sobre esto con @EgeErdil2, @MatthewJBar y @tamaybes. Ojalá podamos publicar la próxima semana.


47.83K
Acabo de hacer esto con un par de amigos en la vida real.
Se siente como si hubiera leído correctamente un libro por primera vez en mi vida.
Tuvimos una idea mucho mejor de cómo todas las preguntas motivadoras y las pruebas encajan realmente en la tesis.
Hacernos preguntas muy básicas (y luego tratar de responderlas) nos llevó a darnos cuenta de lo turbio que era realmente nuestro mapa del terreno. Y cuán confusa era nuestra interpretación original de conceptos aparentemente simples.

Dwarkesh Patel18 sept, 03:57
Sería divertido hacer un club de lectura para libros/trabajos que estoy revisando para prepararme para entrevistas (o simplemente interesado en leer de todos modos).
¿La mejor manera de organizarse? ¿Twitter en vivo? ¿Discord/Slack? ¿O simplemente tuitear pensamientos y hacer que la gente discuta en los comentarios? ¿Algo más?
210.86K
Populares
Ranking
Favoritas