Poderíamos resolver isso por meio de execução restrita. Restrinja o comprimento de saída, como o limite de 140 caracteres no Twitter. Ou restrinja o tempo de execução, como o modo de tempo real no Linux.
Andrej Karpathy
Andrej Karpathy10 de ago., 00:53
Estou percebendo que devido a (eu acho?) muito benchmarkmaxxing em tarefas de longo horizonte, os LLMs estão se tornando um pouco agenciais demais por padrão, um pouco além do meu caso de uso médio. Por exemplo, na codificação, os modelos agora tendem a raciocinar por um tempo bastante longo, eles têm uma inclinação para começar a listar e grepping arquivos em todo o repositório, eles fazem pesquisas repetidas na web, eles analisam demais e pensam demais em pequenos casos extremos raros, mesmo em código que está conscientemente incompleto e em desenvolvimento ativo, e muitas vezes voltam ~ minutos depois, mesmo para consultas simples. Isso pode fazer sentido para tarefas de longa duração, mas é menos adequado para um desenvolvimento iterado mais "in the loop" que eu ainda faço muito, ou se estou apenas procurando uma verificação rápida antes de executar um script, apenas no caso de eu ter algum erro de indexação ou cometido algum erro. Então, muitas vezes me pego parando os LLMs com variações de "Pare, você está pensando demais nisso. Olhe apenas para este único arquivo. Não use nenhuma ferramenta. Não exagere na engenharia ", etc. Basicamente, à medida que o padrão começa a se infiltrar lentamente no modo super agêntico "ultrathink", sinto a necessidade do inverso e, de maneira mais geral, boas maneiras de indicar ou comunicar intenções / apostas, de "apenas dê uma olhada rápida" até "saia por 30 minutos, volte quando tiver certeza absoluta".
Você não precisa usar os conceitos exatamente, mas as ideias do desenvolvimento do sistema operacional em tempo real podem ser incorporadas como restrições durante o treinamento e a avaliação da IA. O tempo real suave pode ser suficiente. A menos que seja um acidente de carro, se não funcionar, como difícil em tempo real.
104,65K