عدم الكفاءة الشديدة ل RL للنماذج الحدودية 🧵 يتطلب التحول من نماذج التدريب الحدودية عن طريق التنبؤ بالرمز المميز التالي إلى التعلم المعزز (RL) من 1,000 إلى 1,000,000 مرة من الحوسبة لكل بت من المعلومات التي يتعلم منها النموذج. 1/11