المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
دعنا نقارن GPT-5 و Claude Opus-4.1 لإنشاء التعليمات البرمجية:
اليوم ، نقوم ببناء CodeArena ، حيث يمكنك مقارنة أي نموذجين من التعليمات البرمجية جنبا إلى جنب.
مكدس التكنولوجيا:
- @LiteLLM للتنسيق
- @Cometml Opik لبناء خط أنابيب eval
- @OpenRouterAI للوصول إلى الموديلات المتطورة
- @LightningAI لاستضافة CodeArena
لنذهب!🚀
إليك سير العمل:
- اختر نماذج لمقارنة إنشاء التعليمات البرمجية
- استيراد مستودع GitHub وتقديمه كسياق ل LLMs
- استخدم السياق + الاستعلام لإنشاء تعليمات برمجية من كلا النموذجين
- تقييم الكود الذي تم إنشاؤه باستخدام G-Eval من Opik
دعونا ننفذ هذا!
0️⃣ تحميل مفاتيح API
في هذا العرض التوضيحي ، سنصل إلى GPT-5 من خلال openai وبقية الطرز باستخدام OpenRouter.
قم بتخزين المفاتيح المطلوبة في ملف .env لتحميلها في البيئة.
تحقق من هذا 👇

1️⃣ استيعاب GitHub repo
نستخدم GitIngest لتحويل مستودع GitHub المحدد من قبل المستخدم إلى بيانات نصية مباشرة وجاهزة ل LLM.
ستستخدم LLMs هذه البيانات كسياق لإنشاء تعليمات برمجية استجابة لاستعلام المستخدم.
تحقق من هذا 👇

2️⃣ مقياس صحة الكود
سنقوم الآن بإنشاء مقاييس تقييم لمهمتنا باستخدام G-Eval من Opik.
يقوم هذا المقياس بتقييم جودة وصحة التعليمات البرمجية التي تم إنشاؤها من خلال مقارنتها برمز الحقيقة الأرضية المرجعي.
تحقق من هذا 👇

3️⃣ مقياس قابلية قراءة الكود
يضمن هذا المقياس أن التعليمات البرمجية تلتزم بالتنسيق الصحيح واصطلاحات التسمية المتسقة.
كما أنه يقيم جودة التعليقات وسلاسل المستندات ، مما يجعل التعليمات البرمجية سهلة الفهم.
تحقق من هذا 👇

4️⃣ مقياس أفضل الممارسات
يضمن هذا المقياس أن تكون التعليمات البرمجية معيارية وفعالة وتنفذ معالجة الأخطاء بشكل صحيح.
تحقق من هذا 👇

5️⃣ توليد استجابة النموذج
الآن نحن جميعا مستعدون لإنشاء استجابات من كلا النموذجين.
نحدد قاعدة التعليمات البرمجية التي تم استيعابها كسياق في الموجه ، وندفق الاستجابات من كلا النموذجين بالتوازي.
تحقق من هذا 👇

6️⃣ تقييم الكود الذي تم إنشاؤه
نقوم بتقييم الاستجابات التي تم إنشاؤها بواسطة كلا النموذجين باستخدام المقاييس المذكورة أعلاه ، مع توفير أسباب مفصلة لكل مقياس.
تحقق من هذا👇

7️⃣ واجهة مستخدم Streamlit
أخيرا ، نقوم بإنشاء واجهة مستخدم Streamlit بديهية تبسط مقارنة وتقييم كلا النموذجين في واجهة واحدة.
تحقق من هذا 👇

حان وقت الاختبار..
الاستعلام 1: إنشاء خادم MCP يتيح لوكلاء الذكاء الاصطناعي وروبوتات المحادثة قراءة التعليمات البرمجية وإدارة المشكلات / العلاقات العامة وتحليل المستودعات وأتمتة مهام سير العمل على GitHub.
عبر المقاييس الثلاثة: الدقة وسهولة القراءة وأفضل الممارسات:
- سجل GPT-5: 9
- سجل Calude Opus-4.1: 8.67

يتيح لك CodeArena مقارنة أي نموذجين. لقد قارنت أيضا لفترة وجيزة GPT-5 ب Qwen3-Coder!
الاستعلام 2: يتصل خادم MCP بواجهة برمجة تطبيقات Notion، مما يمكن الذكاء الاصطناعي من إدارة الملاحظات وقوائم المهام وقواعد البيانات لتحسين الإنتاجية والتنظيم.
تحقق من هذا 👇

يمكنك العثور على كل التعليمات البرمجية وكل ما تحتاجه لتشغيل CodeArena في @LightningAI Studio أدناه!
خذها في جولة:
أخيرا ، إليك 10 تقييمات أخرى قمت بتشغيلها باستخدام Opik في بناء خوادم MCP.
- فاز GPT-5 في 6 حالات.
- فاز كلود أوبوس 4.1 في 4 المتبقية
بشكل عام ، كلا النموذجين جيدان بشكل استثنائي ، مع GPT-5 أفضل بشكل هامشي.
تحقق من هذا 👇

إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك.
ابحث عني → @akshay_pachaar✔️
لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!

8 أغسطس، 22:31
دعنا نقارن GPT-5 و Claude Opus-4.1 لإنشاء التعليمات البرمجية:
33.3K
الأفضل
المُتصدِّرة
التطبيقات المفضلة