Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atualização do Mapa Cognitivo
De acordo com o especialista em IA Andrej Karpathy, na era do pré-treinamento, o mais importante são os dados de texto da internet; na era do ajuste fino supervisionado, o mais importante é a estrutura de conhecimento em forma de perguntas e respostas do Zhihu e Stackoverflow; na era do aprendizado por reforço, o mais importante são os ambientes diversificados.
Focando na tokenização de ativos de IA na área de IA x Crypto, além da computação tradicional, dados, modelos e agentes, surgiram novos ativos de IA que podem ser tokenizados: ambientes.

Há 22 horas
Na era do pré-treinamento, o que importava era o texto da internet. Você gostaria principalmente de uma coleção grande, diversificada e de alta qualidade de documentos da internet para aprender.
Na era do ajuste fino supervisionado, eram conversas. Trabalhadores contratados são contratados para criar respostas para perguntas, um pouco como o que você veria no Stack Overflow / Quora, ou etc., mas voltado para casos de uso de LLM.
Nenhum dos dois acima vai desaparecer (na minha opinião), mas nesta era de aprendizado por reforço, agora são ambientes. Ao contrário do acima, eles dão ao LLM a oportunidade de realmente interagir - tomar ações, ver resultados, etc. Isso significa que você pode esperar fazer muito melhor do que a imitação estatística de especialistas. E eles podem ser usados tanto para treinamento quanto para avaliação do modelo. Mas, assim como antes, o problema central agora é a necessidade de um conjunto grande, diversificado e de alta qualidade de ambientes, como exercícios para o LLM praticar.
De certa forma, sou lembrado do primeiro projeto da OpenAI (gym), que era exatamente uma estrutura esperando construir uma grande coleção de ambientes no mesmo esquema, mas isso foi muito antes dos LLMs. Então, os ambientes eram tarefas de controle acadêmico simples da época, como cartpole, ATARI, etc. O hub de ambientes @PrimeIntellect (e o repositório `verifiers` no GitHub) constrói a versão modernizada especificamente direcionada a LLMs, e é um grande esforço/ideia. Eu sugeri que alguém construísse algo assim no início deste ano:
Os ambientes têm a propriedade de que, uma vez que o esqueleto da estrutura esteja em vigor, em princípio, a comunidade/indústria pode paralelizar em muitos domínios diferentes, o que é empolgante.
Pensamento final - pessoalmente e a longo prazo, sou otimista em relação a ambientes e interações agentivas, mas sou pessimista em relação ao aprendizado por reforço especificamente. Eu acho que funções de recompensa são super suspeitas, e eu acho que os humanos não usam RL para aprender (talvez o façam para algumas tarefas motoras, etc., mas não para tarefas de resolução de problemas intelectuais). Os humanos usam paradigmas de aprendizado diferentes que são significativamente mais poderosos e eficientes em amostras e que ainda não foram devidamente inventados e escalados, embora esboços e ideias iniciais existam (como apenas um exemplo, a ideia de "aprendizado de prompt de sistema", movendo a atualização para tokens/contextos, não pesos, e opcionalmente destilando para pesos como um processo separado, um pouco como o sono faz).
2,56K
Top
Classificação
Favoritos