DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Comparons GPT-5 et Claude Opus-4.1 pour la génération de code :

Aujourd'hui, nous construisons un CodeArena, où vous pouvez comparer deux modèles de génération de code côte à côte. Technologies utilisées : - @LiteLLM pour l'orchestration - Opik de @Cometml pour construire le pipeline d'évaluation - @OpenRouterAI pour accéder à des modèles de pointe - @LightningAI pour héberger CodeArena Allons-y !🚀

Voici le flux de travail : - Choisir des modèles pour la comparaison de génération de code - Importer un dépôt GitHub et l'offrir comme contexte aux LLMs - Utiliser le contexte + la requête pour générer du code à partir des deux modèles - Évaluer le code généré en utilisant G-Eval d'Opik Mettons cela en œuvre !

0️⃣ Charger les clés API Dans cette démo, nous accéderons à GPT-5 via openai et aux autres modèles en utilisant OpenRouter. Stockez les clés requises dans un fichier .env pour les charger dans l'environnement. Vérifiez ceci 👇

1️⃣ Ingestion du dépôt GitHub Nous utilisons GitIngest pour convertir un dépôt GitHub spécifié par l'utilisateur en données textuelles simples, prêtes pour les LLM. Les LLM utiliseront ces données comme contexte pour générer du code en réponse à la requête de l'utilisateur. Découvrez cela 👇

2️⃣ Métrique de correction du code Nous allons maintenant créer des métriques d'évaluation pour notre tâche en utilisant G-Eval d'Opik. Cette métrique évalue la qualité et la correction du code généré en le comparant à un code de référence considéré comme vrai. Regardez ça 👇

3️⃣ Métrique de lisibilité du code Cette métrique garantit que le code respecte un formatage approprié et des conventions de nommage cohérentes. Elle évalue également la qualité des commentaires et des docstrings, qui rendent le code facile à comprendre. Découvrez cela 👇

4️⃣ Meilleures pratiques métriques Cette métrique garantit que le code est modulaire, efficace et qu'il implémente une gestion des erreurs appropriée. Regardez ça 👇

5️⃣ Générer la réponse du modèle Nous sommes maintenant prêts à générer des réponses des deux modèles. Nous spécifions le code source ingéré comme contexte dans l'invite, et diffusons les réponses des deux modèles en parallèle. Vérifiez ceci 👇

6️⃣ Évaluer le code généré Nous évaluons les réponses générées par les deux modèles en utilisant les métriques mentionnées ci-dessus, en fournissant un raisonnement détaillé pour chaque métrique. Regardez ça👇

7️⃣ Interface Streamlit Enfin, nous créons une interface Streamlit intuitive qui simplifie la comparaison et l'évaluation des deux modèles au sein d'une seule interface. Vérifiez ceci 👇

Il est temps de tester.. Requête 1 : Construire un serveur MCP qui permet aux agents IA et aux chatbots de lire du code, de gérer des problèmes/PR, d'analyser des dépôts et d'automatiser des flux de travail sur GitHub. Sur les trois critères : Exactitude, Lisibilité et Meilleures pratiques : - GPT-5 a obtenu : 9 - Calude Opus-4.1 a obtenu : 8,67

CodeArena vous permet de comparer n'importe quels deux modèles. J'ai également brièvement comparé GPT-5 avec Qwen3-Coder ! Requête 2 : Le serveur MCP se connecte à l'API de Notion, permettant à l'IA de gérer des notes, des listes de tâches et des bases de données pour une productivité et une organisation améliorées. Regardez ça 👇

Vous pouvez trouver tout le code et tout ce dont vous avez besoin pour faire fonctionner CodeArena dans le @LightningAI Studio ci-dessous ! Essayez-le :

Enfin, voici 10 autres évaluations que j'ai réalisées en utilisant Opik pour construire des serveurs MCP. - GPT-5 a gagné dans 6 cas. - Claude Opus 4.1 a gagné dans les 4 restants. Dans l'ensemble, les deux modèles sont exceptionnellement bons, avec GPT-5 légèrement meilleur. Vérifiez cela 👇

Si vous l'avez trouvé instructif, partagez-le avec votre réseau. Trouvez-moi → @akshay_pachaar✔️ Pour plus d'informations et de tutoriels sur les LLM, les agents IA et l'apprentissage automatique !

33,3K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables