Estou percebendo que devido a (eu acho?) muito benchmarkmaxxing em tarefas de longo horizonte, os LLMs estão se tornando um pouco agenciais demais por padrão, um pouco além do meu caso de uso médio. Por exemplo, na codificação, os modelos agora tendem a raciocinar por um tempo bastante longo, eles têm uma inclinação para começar a listar e grepping arquivos em todo o repositório, eles fazem pesquisas repetidas na web, eles analisam demais e pensam demais em pequenos casos extremos raros, mesmo em código que está conscientemente incompleto e em desenvolvimento ativo, e muitas vezes voltam ~ minutos depois, mesmo para consultas simples. Isso pode fazer sentido para tarefas de longa duração, mas é menos adequado para um desenvolvimento iterado mais "in the loop" que eu ainda faço muito, ou se estou apenas procurando uma verificação rápida antes de executar um script, apenas no caso de eu ter algum erro de indexação ou cometido algum erro. Então, muitas vezes me pego parando os LLMs com variações de "Pare, você está pensando demais nisso. Olhe apenas para este único arquivo. Não use nenhuma ferramenta. Não exagere na engenharia ", etc. Basicamente, à medida que o padrão começa a se infiltrar lentamente no modo super agêntico "ultrathink", sinto a necessidade do inverso e, de maneira mais geral, boas maneiras de indicar ou comunicar intenções / apostas, de "apenas dê uma olhada rápida" até "saia por 30 minutos, volte quando tiver certeza absoluta".
125,73K