Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Podemos abordar isso através da execução restrita.
Restringir o comprimento da saída, como o limite de 140 caracteres no Twitter.
Ou restringir o tempo de execução, como o modo em tempo real no Linux.


10/08, 00:53
Estou a notar que, devido a (acho eu?) muito benchmarkmaxxing em tarefas de longo prazo, os LLMs estão a tornar-se um pouco demasiado agentes por padrão, um pouco além do meu caso de uso médio.
Por exemplo, na codificação, os modelos agora tendem a raciocinar durante bastante tempo, têm uma inclinação para começar a listar e grepar arquivos por todo o repositório, fazem buscas repetidas na web, analisam e pensam demais sobre pequenos casos raros, mesmo em código que está claramente incompleto e em desenvolvimento ativo, e muitas vezes voltam ~minutos depois, mesmo para consultas simples.
Isto pode fazer sentido para tarefas de longa duração, mas é menos adequado para um desenvolvimento mais "dentro do loop" que eu ainda faço muito, ou se estou apenas à procura de uma verificação rápida antes de executar um script, só para o caso de ter feito algum erro de indexação ou cometido algum erro estúpido. Portanto, encontro-me muitas vezes a parar os LLMs com variações de "Pára, estás a pensar demais nisto. Olha apenas para este único arquivo. Não uses ferramentas. Não sobreengenhetes." etc.
Basicamente, à medida que o padrão começa a infiltrar-se lentamente no modo "ultrathink" super agente, sinto a necessidade do oposto, e, de forma mais geral, boas maneiras de indicar ou comunicar intenção / riscos, desde "apenas dá uma olhadela rápida" até "vai embora por 30 minutos, volta quando tiveres a certeza absoluta".
Não precisa usar os conceitos exatamente, mas ideias do desenvolvimento de sistemas operativos em tempo real poderiam ser incorporadas como restrições durante o treinamento e avaliação de IA.
Tempo real suave pode ser suficiente. A menos que seja um acidente de carro se não funcionar, como no tempo real rígido.

104,64K
Top
Classificação
Favoritos