Zatrudniamy inżyniera RL! Zaczęło się jako ciekawy projekt w @lossfunk, aby przesunąć granice LLM w zakresie rozumowania społecznego - teraz budujemy środowiska RL, dane i benchmarki, aby symulować bardziej realistyczne scenariusze. Jeśli chcesz trenować modele RL SoTA na wielu GPU (H200s/B200s), aby odkryć nową granicę AI, to jest oferta dla Ciebie.
39,36K