DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Atualizações do gráfico cognitivo De acordo com o touro de IA Andrej Karpathy, na era pré-treinamento, a chave são os dados de texto da Internet; Na era da supervisão do ajuste fino, a chave é o conhecimento estruturado do estilo de perguntas e respostas de Zhihu e Stackflow; Na era do aprendizado intensivo, a chave é um ambiente diversificado. A trilha AI x Crypto, que se concentra na tokenização de ativos de IA, tem um novo ativo de IA tokenizável: o ambiente, além do poder de computação tradicional, dados, modelos e agentes

Na era do pré-treinamento, o que importava era o texto da internet. Você gostaria principalmente de uma coleção grande, diversificada e de alta qualidade de documentos da Internet para aprender. Na era do ajuste fino supervisionado, eram conversas. Trabalhadores contratados são contratados para criar respostas para perguntas, um pouco como o que você veria no Stack Overflow / Quora, ou etc., mas voltado para casos de uso de LLM. Nenhum dos dois acima está indo embora (imo), mas nesta era de aprendizado por reforço, agora são ambientes. Ao contrário do acima, eles dão ao LLM a oportunidade de realmente interagir - realizar ações, ver resultados, etc. Isso significa que você pode esperar fazer muito melhor do que a imitação de especialistas em estatística. E eles podem ser usados tanto para treinamento quanto para avaliação de modelos. Mas, assim como antes, o problema central agora é a necessidade de um conjunto de ambientes grande, diversificado e de alta qualidade, como exercícios para o LLM praticar. De certa forma, lembro-me do primeiro projeto da OpenAI (academia), que era exatamente uma estrutura que esperava construir uma grande coleção de ambientes no mesmo esquema, mas isso foi muito antes dos LLMs. Portanto, os ambientes eram tarefas simples de controle acadêmico da época, como cartpole, ATARI, etc. O hub de ambientes @PrimeIntellect (e o repositório 'verifiers' no GitHub) constrói a versão modernizada voltada especificamente para LLMs, e é um grande esforço/ideia. Eu propus que alguém construísse algo parecido no início deste ano: Os ambientes têm a propriedade de que, uma vez que o esqueleto da estrutura esteja no lugar, em princípio, a comunidade / indústria pode paralelizar em muitos domínios diferentes, o que é empolgante. Pensamento final - pessoalmente e a longo prazo, estou otimista em relação a ambientes e interações agentes, mas estou pessimista especificamente em relação ao aprendizado por reforço. Eu acho que as funções de recompensa são super sus, e acho que os humanos não usam RL para aprender (talvez eles usem para algumas tarefas motoras, etc., mas não para tarefas de resolução de problemas intelectuais). Os humanos usam diferentes paradigmas de aprendizagem que são significativamente mais poderosos e eficientes em termos de amostra e que ainda não foram devidamente inventados e dimensionados, embora existam esboços e ideias iniciais (como apenas um exemplo, a ideia de "aprendizado imediato do sistema", movendo a atualização para tokens/contextos e não pesos e, opcionalmente, destilando para pesos como um processo separado, um pouco como o sono).

2,56K

Melhores

Classificação

Favoritos