دعنا نقارن GPT-5 و Claude Opus-4.1 لإنشاء التعليمات البرمجية:
اليوم ، نقوم ببناء CodeArena ، حيث يمكنك مقارنة أي نموذجين من التعليمات البرمجية جنبا إلى جنب. مكدس التكنولوجيا: - @LiteLLM للتنسيق - @Cometml Opik لبناء خط أنابيب eval - @OpenRouterAI للوصول إلى الموديلات المتطورة - @LightningAI لاستضافة CodeArena لنذهب!🚀
إليك سير العمل: - اختر نماذج لمقارنة إنشاء التعليمات البرمجية - استيراد مستودع GitHub وتقديمه كسياق ل LLMs - استخدم السياق + الاستعلام لإنشاء تعليمات برمجية من كلا النموذجين - تقييم الكود الذي تم إنشاؤه باستخدام G-Eval من Opik دعونا ننفذ هذا!
0️⃣ تحميل مفاتيح API في هذا العرض التوضيحي ، سنصل إلى GPT-5 من خلال openai وبقية الطرز باستخدام OpenRouter. قم بتخزين المفاتيح المطلوبة في ملف .env لتحميلها في البيئة. تحقق من هذا 👇
1️⃣ استيعاب GitHub repo نستخدم GitIngest لتحويل مستودع GitHub المحدد من قبل المستخدم إلى بيانات نصية مباشرة وجاهزة ل LLM. ستستخدم LLMs هذه البيانات كسياق لإنشاء تعليمات برمجية استجابة لاستعلام المستخدم. تحقق من هذا 👇
2️⃣ مقياس صحة الكود سنقوم الآن بإنشاء مقاييس تقييم لمهمتنا باستخدام G-Eval من Opik. يقوم هذا المقياس بتقييم جودة وصحة التعليمات البرمجية التي تم إنشاؤها من خلال مقارنتها برمز الحقيقة الأرضية المرجعي. تحقق من هذا 👇
3️⃣ مقياس قابلية قراءة الكود يضمن هذا المقياس أن التعليمات البرمجية تلتزم بالتنسيق الصحيح واصطلاحات التسمية المتسقة. كما أنه يقيم جودة التعليقات وسلاسل المستندات ، مما يجعل التعليمات البرمجية سهلة الفهم. تحقق من هذا 👇
4️⃣ مقياس أفضل الممارسات يضمن هذا المقياس أن تكون التعليمات البرمجية معيارية وفعالة وتنفذ معالجة الأخطاء بشكل صحيح. تحقق من هذا 👇
5️⃣ توليد استجابة النموذج الآن نحن جميعا مستعدون لإنشاء استجابات من كلا النموذجين. نحدد قاعدة التعليمات البرمجية التي تم استيعابها كسياق في الموجه ، وندفق الاستجابات من كلا النموذجين بالتوازي. تحقق من هذا 👇
6️⃣ تقييم الكود الذي تم إنشاؤه نقوم بتقييم الاستجابات التي تم إنشاؤها بواسطة كلا النموذجين باستخدام المقاييس المذكورة أعلاه ، مع توفير أسباب مفصلة لكل مقياس. تحقق من هذا👇
7️⃣ واجهة مستخدم Streamlit أخيرا ، نقوم بإنشاء واجهة مستخدم Streamlit بديهية تبسط مقارنة وتقييم كلا النموذجين في واجهة واحدة. تحقق من هذا 👇
حان وقت الاختبار.. الاستعلام 1: إنشاء خادم MCP يتيح لوكلاء الذكاء الاصطناعي وروبوتات المحادثة قراءة التعليمات البرمجية وإدارة المشكلات / العلاقات العامة وتحليل المستودعات وأتمتة مهام سير العمل على GitHub. عبر المقاييس الثلاثة: الدقة وسهولة القراءة وأفضل الممارسات: - سجل GPT-5: 9 - سجل Calude Opus-4.1: 8.67
يتيح لك CodeArena مقارنة أي نموذجين. لقد قارنت أيضا لفترة وجيزة GPT-5 ب Qwen3-Coder! الاستعلام 2: يتصل خادم MCP بواجهة برمجة تطبيقات Notion، مما يمكن الذكاء الاصطناعي من إدارة الملاحظات وقوائم المهام وقواعد البيانات لتحسين الإنتاجية والتنظيم. تحقق من هذا 👇
يمكنك العثور على كل التعليمات البرمجية وكل ما تحتاجه لتشغيل CodeArena في @LightningAI Studio أدناه! خذها في جولة:
أخيرا ، إليك 10 تقييمات أخرى قمت بتشغيلها باستخدام Opik في بناء خوادم MCP. - فاز GPT-5 في 6 حالات. - فاز كلود أوبوس 4.1 في 4 المتبقية بشكل عام ، كلا النموذجين جيدان بشكل استثنائي ، مع GPT-5 أفضل بشكل هامشي. تحقق من هذا 👇
إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك. ابحث عني → @akshay_pachaar✔️ لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!
Akshay 🚀
Akshay 🚀‏8 أغسطس، 22:31
دعنا نقارن GPT-5 و Claude Opus-4.1 لإنشاء التعليمات البرمجية:
‏‎33.3‏K