هو آرثر مينش، مؤسس ميسترال.
هذا أمر مقلق في عدد الأشخاص الذين حضروا هذه الكلمة الرئيسية.
من المحتمل جدا أن يحدث ذلك إذا قيدت البنائين الفعليين وتركت فقط البيروقراطيين + <invite-only> الإخوة الكبار. هذا أمر مثير للشفقة.
بنوا GLM-5 دون الاعتماد على عناقيد NVIDIA الكبيرة، بل في الغالب على أجهزة صينية محلية أقل نضجا كنظام بيئي، ومن المثير للاهتمام أنهم لعبوا بذكاء هنا مع تحسينات على الكم، والنواة، والجدولة غير المتزامنة، والتوازي وغيرها.
نقدم التقرير الفني ل GLM-5!
بعد إطلاق GLM-5، بدأنا نكشف عن كيفية بنائه. تشمل الابتكارات الرئيسية:
- اعتماد DSA: يقلل بشكل كبير من تكاليف التدريب والاستدلال مع الحفاظ على دقة السياق الطويل
- البنية التحتية غير المتزامنة للتعلم التقدي: تحسن بشكل كبير كفاءة ما بعد التدريب من خلال فصل التوليد عن التدريب
- خوارزميات التعلم المعزز للوكلاء: تمكن النموذج من التعلم من التفاعلات المعقدة والطويلة الأفق بشكل أكثر فعالية
من خلال هذه الابتكارات، يحقق GLM-5 أداء SOTA بين النماذج مفتوحة المصدر، مع نتائج قوية بشكل خاص في مهام هندسة البرمجيات الواقعية.