Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Estou a notar que, devido a (acho eu?) muito benchmarkmaxxing em tarefas de longo prazo, os LLMs estão a tornar-se um pouco demasiado agentes por padrão, um pouco além do meu caso de uso médio. Por exemplo, na codificação, os modelos agora tendem a raciocinar durante bastante tempo, têm uma inclinação para começar a listar e grepar arquivos por todo o repositório, fazem buscas repetidas na web, analisam e pensam demais sobre pequenos casos raros, mesmo em código que está claramente incompleto e em desenvolvimento ativo, e muitas vezes voltam ~minutos depois, mesmo para consultas simples. Isto pode fazer sentido para tarefas de longa duração, mas é menos adequado para um desenvolvimento mais "dentro do loop" que eu ainda faço muito, ou se estou apenas à procura de uma verificação rápida antes de executar um script, só para o caso de ter feito algum erro de indexação ou cometido algum erro estúpido. Portanto, encontro-me muitas vezes a parar os LLMs com variações de "Pára, estás a pensar demais nisto. Olha apenas para este único arquivo. Não uses ferramentas. Não sobreengenhetes." etc. Basicamente, à medida que o padrão começa a infiltrar-se lentamente no modo "ultrathink" super agente, sinto a necessidade do oposto, e, de forma mais geral, boas maneiras de indicar ou comunicar intenção / riscos, desde "apenas dá uma olhadela rápida" até "vai embora por 30 minutos, volta quando tiveres a certeza absoluta".

125,7K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável