Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Podríamos abordar esto a través de una ejecución restringida.
Restringir la longitud de salida, como el límite de 140 caracteres en Twitter.
O restringir el tiempo de ejecución, como el modo en tiempo real en Linux.


10 ago, 00:53
Estoy notando que debido a (¿creo?) a mucho benchmarkmaxxing en tareas de largo horizonte, los LLMs están volviéndose un poco demasiado agentes por defecto, un poco más allá de mi caso de uso promedio.
Por ejemplo, en programación, los modelos ahora tienden a razonar durante bastante tiempo, tienen una inclinación a comenzar a listar y buscar archivos en todo el repositorio, realizan búsquedas web repetidas, sobreanalizan y piensan demasiado en pequeños casos extremos raros incluso en código que es conscientemente incompleto y está en desarrollo activo, y a menudo regresan ~minutos después incluso para consultas simples.
Esto podría tener sentido para tareas de larga duración, pero es menos adecuado para el desarrollo iterado más "en el bucle" que todavía hago mucho, o si solo estoy buscando una rápida verificación antes de ejecutar un script, por si acaso cometí algún error de indexación o hice algún error tonto. Así que me encuentro bastante a menudo deteniendo a los LLMs con variaciones de "Para, estás pensando demasiado en esto. Mira solo este archivo. No uses ninguna herramienta. No sobreingenieres", etc.
Básicamente, a medida que el defecto comienza a deslizarse lentamente hacia el modo "ultrathink" de super agente, siento la necesidad de lo contrario, y más generalmente buenas maneras de indicar o comunicar intención / riesgos, desde "solo echa un vistazo rápido" hasta "vete durante 30 minutos, regresa cuando estés absolutamente seguro".
No es necesario utilizar los conceptos exactamente, pero las ideas del desarrollo de sistemas operativos en tiempo real podrían incorporarse como restricciones durante el entrenamiento y la evaluación de la IA.
El tiempo real suave puede ser suficiente. A menos que sea un accidente de coche si no funciona, como el tiempo real duro.

104,64K
Parte superior
Clasificación
Favoritos