"في عالم يتغير بسرعة كبيرة ، فإن أكبر مخاطرة يمكنك تحملها هي عدم المخاطرة" حقيقة.
Rishabh Agarwal
Rishabh Agarwal‏26 أغسطس، 01:38
هذا هو أسبوعي الأخير في @AIatMeta. لقد كان قرارا صعبا بعدم الاستمرار في مختبر Superintelligence TBD الجديد ، خاصة بالنظر إلى كثافة المواهب والحوسبة. ولكن بعد 7.5 سنوات عبر Google Brain و DeepMind و Meta ، شعرت بالجاذبية لتحمل نوع مختلف من المخاطرة. كان العرض التقديمي من مارك @alexandr_wang للبناء في فريق الذكاء الخارق مقنعا بشكل لا يصدق. لكنني اخترت في النهاية اتباع نصيحة مارك الخاصة: "في عالم يتغير بسرعة كبيرة ، فإن أكبر مخاطرة يمكنك تحملها هي عدم المخاطرة". في الفترة القصيرة التي قضيتها في Meta ، دفعنا الحدود في مرحلة ما بعد التدريب لنماذج "التفكير". تحديدا: - دفع نموذج كثيف 8B إلى ما يقرب من أداء Deepseek-R1 مع تحجيم ROL. - استخدام البيانات التركيبية في منتصف التدريب لبدء RL بحرارة - تطوير طرق تقطير أفضل على السياسة. لقد استمتعت حقا بالعمل مع @_arohan_ و @brandfonbrener و Leo Li و @ErykHelenowski و @DatHuynh13 و Xiaocheng و Jia و Boduo و Yanjun.
‏‎4.84‏K