Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Estou a notar que, devido a (acho eu?) muito benchmarkmaxxing em tarefas de longo prazo, os LLMs estão a tornar-se um pouco demasiado agentes por padrão, um pouco além do meu caso de uso médio.
Por exemplo, na codificação, os modelos agora tendem a raciocinar durante bastante tempo, têm uma inclinação para começar a listar e grepar arquivos por todo o repositório, fazem buscas repetidas na web, analisam e pensam demais sobre pequenos casos raros, mesmo em código que está claramente incompleto e em desenvolvimento ativo, e muitas vezes voltam ~minutos depois, mesmo para consultas simples.
Isto pode fazer sentido para tarefas de longa duração, mas é menos adequado para um desenvolvimento mais "dentro do loop" que eu ainda faço muito, ou se estou apenas à procura de uma verificação rápida antes de executar um script, só para o caso de ter feito algum erro de indexação ou cometido algum erro estúpido. Portanto, encontro-me muitas vezes a parar os LLMs com variações de "Pára, estás a pensar demais nisto. Olha apenas para este único arquivo. Não uses ferramentas. Não sobreengenhetes." etc.
Basicamente, à medida que o padrão começa a infiltrar-se lentamente no modo "ultrathink" super agente, sinto a necessidade do oposto, e, de forma mais geral, boas maneiras de indicar ou comunicar intenção / riscos, desde "apenas dá uma olhadela rápida" até "vai embora por 30 minutos, volta quando tiveres a certeza absoluta".
125,7K
Top
Classificação
Favoritos