Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Excelente ver os novos Tinker-docs da @thinkymachines, que confirmam uma inconsistência na perda de GRPO.
Exploramos essa questão em nosso trabalho anterior () e desenvolvemos um método mais robusto com melhorias substanciais de desempenho:
• +12 pontos absolutos vs. GRPO
• +6 pontos absolutos vs. DAPO
Nosso artigo detalha o design de algoritmos de gradiente de política regularizados por KL e nosso repositório fornece uma implementação corrigida.
Papel:
Código:

Melhores
Classificação
Favoritos