Estoy notando que debido a (¿creo?) a mucho benchmarkmaxxing en tareas de largo horizonte, los LLMs están volviéndose un poco demasiado agentes por defecto, un poco más allá de mi caso de uso promedio. Por ejemplo, en programación, los modelos ahora tienden a razonar durante bastante tiempo, tienen una inclinación a comenzar a listar y buscar archivos en todo el repositorio, realizan búsquedas web repetidas, sobreanalizan y piensan demasiado en pequeños casos raros incluso en código que es conscientemente incompleto y está en desarrollo activo, y a menudo regresan ~minutos después incluso para consultas simples. Esto podría tener sentido para tareas de larga duración, pero es menos adecuado para el desarrollo iterado más "en el bucle" que todavía hago mucho, o si solo estoy buscando una rápida verificación antes de ejecutar un script, por si acaso cometí algún error de indexación o hice algún error tonto. Así que me encuentro bastante a menudo deteniendo los LLMs con variaciones de "Para, estás pensando demasiado en esto. Mira solo este archivo. No uses ninguna herramienta. No sobreingenieres", etc. Básicamente, a medida que el defecto comienza a deslizarse lentamente hacia el modo "ultrathink" de super agente, siento la necesidad de lo contrario, y más generalmente buenas maneras de indicar o comunicar intención / riesgos, desde "solo echa un vistazo rápido" hasta "ve y regresa en 30 minutos, vuelve cuando estés absolutamente seguro".
125.74K