Nok et flott innlegg. "Vi må bygge mange nye miljøer for å prøve å lære ulike ferdigheter via RL-trening." Kunne ikke vært mer bullish på @PrimeIntellect Bonus: innlegget nevner også modellsuppe/sammenslåing som jeg tror er det PI opprinnelig jobbet med i 2023(?)
jack morris
jack morris11. juli 2025
ny blogg: Hvordan skalere RL til 10^26 flopper alle prøver å finne ut den riktige måten å skalere resonnement med RL ilya sammenlignet Internett med fossilt brensel: det kan være de eneste nyttige dataene vi har. og det er forbrukbart kanskje vi burde lære å resonnere fra Internett (ikke bare matematikk og kode)
31,85K