Lass uns GPT-5 und Claude Opus-4.1 für die Codegenerierung vergleichen:
Heute bauen wir eine CodeArena, in der du zwei Code-Generierungsmodelle nebeneinander vergleichen kannst. Technologiestack: - @LiteLLM für die Orchestrierung - @Cometmls Opik zum Aufbau der Evaluierungspipeline - @OpenRouterAI für den Zugriff auf modernste Modelle - @LightningAI zum Hosting der CodeArena Lass uns loslegen!🚀
Hier ist der Arbeitsablauf: - Wählen Sie Modelle zum Vergleich der Codegenerierung aus - Importieren Sie ein GitHub-Repository und bieten Sie es als Kontext für LLMs an - Verwenden Sie Kontext + Abfrage, um Code aus beiden Modellen zu generieren - Bewerten Sie den generierten Code mit Opiks G-Eval Lassen Sie uns das umsetzen!
0️⃣ API-Schlüssel laden In dieser Demo greifen wir über OpenAI auf GPT-5 und die restlichen Modelle über OpenRouter zu. Speichern Sie die erforderlichen Schlüssel in einer .env-Datei, um sie in die Umgebung zu laden. Überprüfen Sie dies 👇
1️⃣ GitHub-Repo einlesen Wir verwenden GitIngest, um ein vom Benutzer angegebenes GitHub-Repository in einfache, LLM-bereite Textdaten umzuwandeln. LLMs nutzen diese Daten als Kontext, um Code als Antwort auf die Anfrage des Benutzers zu generieren. Schau dir das an 👇
2️⃣ Metrik zur Code-Korrektheit Wir werden jetzt Evaluationsmetriken für unsere Aufgabe mit Opiks G-Eval erstellen. Diese Metrik bewertet die Qualität und Korrektheit des generierten Codes, indem sie ihn mit einem Referenz-Code der Wahrheit vergleicht. Schau dir das an 👇
3️⃣ Metrik zur Lesbarkeit des Codes Diese Metrik stellt sicher, dass der Code ordnungsgemäße Formatierung und konsistente Namenskonventionen einhält. Sie bewertet auch die Qualität von Kommentaren und Docstrings, die den Code leicht verständlich machen. Schau dir das an 👇
4️⃣ Beste Praktiken-Metrik Diese Metrik stellt sicher, dass der Code modular, effizient ist und eine ordnungsgemäße Fehlerbehandlung implementiert. Schau dir das an 👇
5️⃣ Generiere Modellantwort Jetzt sind wir bereit, Antworten von beiden Modellen zu generieren. Wir geben den aufgenommenen Code als Kontext im Prompt an und streamen die Antworten von beiden Modellen parallel. Überprüfe das 👇
6️⃣ Generierten Code bewerten Wir bewerten die von beiden Modellen generierten Antworten anhand der oben genannten Metriken und geben eine detaillierte Begründung für jede Metrik. Schau dir das an👇
7️⃣ Streamlit UI Schließlich erstellen wir eine intuitive Streamlit-Benutzeroberfläche, die das Vergleichen und Bewerten beider Modelle innerhalb einer einzigen Schnittstelle vereinfacht. Überprüfen Sie dies 👇
Zeit, um zu testen.. Abfrage 1: Erstellen Sie einen MCP-Server, der es KI-Agenten und Chatbots ermöglicht, Code zu lesen, Probleme/PRs zu verwalten, Repos zu analysieren und Workflows auf GitHub zu automatisieren. Über die drei Metriken: Korrektheit, Lesbarkeit und Best Practices: - GPT-5 erzielte: 9 - Calude Opus-4.1 erzielte: 8,67
CodeArena ermöglicht es Ihnen, beliebige zwei Modelle zu vergleichen. Ich habe auch kurz GPT-5 mit Qwen3-Coder verglichen! Abfrage 2: Der MCP-Server verbindet sich mit der Notion-API, sodass KI Notizen, To-Do-Listen und Datenbanken verwalten kann, um die Produktivität und Organisation zu verbessern. Schau dir das an 👇
Sie finden den gesamten Code und alles, was Sie benötigen, um CodeArena im @LightningAI Studio unten auszuführen! Probieren Sie es aus:
Schließlich sind hier 10 weitere Bewertungen, die ich mit Opik zur Erstellung von MCP-Servern durchgeführt habe. - GPT-5 gewann in 6 Fällen. - Claude Opus 4.1 gewann in den verbleibenden 4. Insgesamt sind beide Modelle außergewöhnlich gut, wobei GPT-5 leicht besser abschneidet. Überprüfe das 👇
Wenn Sie es aufschlussreich fanden, teilen Sie es mit Ihrem Netzwerk. Finden Sie mich → @akshay_pachaar✔️ Für weitere Einblicke und Tutorials zu LLMs, KI-Agenten und maschinellem Lernen!
Akshay 🚀
Akshay 🚀8. Aug., 22:31
Lass uns GPT-5 und Claude Opus-4.1 für die Codegenerierung vergleichen:
33,3K