Mempekerjakan Insinyur RL! Dimulai sebagai proyek yang aneh di @lossfunk untuk mendorong batas-batas LLM dalam penalaran sosial - kami sekarang membangun lingkungan RL, data, dan tolok ukur untuk mensimulasikan lebih banyak skenario dunia nyata. Jika Anda ingin melatih model SoTA RL melalui multi-GPU (H200s/B200s) untuk membuka batas AI berikutnya, ini cocok untuk Anda.
39,37K