Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Excelente ver os novos Tinker-docs da @thinkymachines, que confirmam uma inconsistência na perda do GRPO.
Explorámos este problema no nosso trabalho anterior () e desenvolvemos um método mais robusto com melhorias de desempenho substanciais:
• +12 pontos absolutos em relação ao GRPO
• +6 pontos absolutos em relação ao DAPO
O nosso artigo detalha o design de algoritmos de gradiente de política regularizados por KL, e o nosso repositório fornece uma implementação corrigida.
Artigo:
Código:

Top
Classificação
Favoritos