Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O aprendizado por reforço permite que os LLMs superem humanos em competições de programação/matemática e tem impulsionado os avanços recentes (o série da OpenAI, Claude 4 da Anthropic)
O RL permitirá uma generalização ampla da mesma forma que o pré-treinamento? Não com as técnicas atuais
🧵 1/7
🔗Links aqui e tópico abaixo:
Papel:
Média:
Subpilha:
2/7
A avaliação existente para LLMs avalia principalmente o desempenho em domínio, utilizando modelos de treinamento pós-reforço (RPT) treinados em dados de domínio misto e avaliados em benchmarks intimamente alinhados com seus domínios de treinamento. Essas configurações introduzem fatores de confusão que obscurecem a verdadeira extensão da capacidade de generalização do RPT
3/7
Introduzimos uma estrutura de avaliação unificada que isola e testa a generalização entre domínios do RPT usando 16 benchmarks em matemática, código e raciocínio intensivo em conhecimento. Dentro deste quadro, avaliamos várias combinações de modelos base e estratégias RPT
4/7

📌 Principais conclusões do Tribunal:
1️⃣ Os ganhos de RPT são principalmente no domínio
2️⃣ Matemática e código generalizam bem entre si
3️⃣ As competências estruturadas não são transferidas para tarefas não estruturadas e com utilização intensiva de conhecimentos
5/7

O takeaway? RPT é poderoso, mas estreito
Melhora o desempenho onde é treinado, mas generaliza mal
6/7
Este trabalho é conjunto com @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai e @jasoncbenn
7/7
2,8K
Top
Classificação
Favoritos