Låt oss jämföra GPT-5 och Claude Opus-4.1 för kodgenerering:
Idag bygger vi en CodeArena, där du kan jämföra två valfria code-gen-modeller sida vid sida. Teknisk stack: - @LiteLLM för orkestrering - @Cometml Opik för att bygga eval-pipelinen - @OpenRouterAI för att få tillgång till banbrytande modeller - @LightningAI för att vara värd för CodeArena Kom så går vi!🚀
Här är arbetsflödet: - Välj modeller för jämförelse av kodgenerering - Importera ett GitHub-förråd och erbjud det som kontext till LLM:er - Använd kontext + fråga för att generera kod från båda modellerna - Utvärdera genererad kod med hjälp av Opiks G-Eval Låt oss genomföra detta!
0️⃣ Ladda API-nycklar I den här demon får vi tillgång till GPT-5 via openai och resten av modellerna med hjälp av OpenRouter. Lagra de nycklar som krävs i en .env-fil för att läsa in i miljön. Kolla in det här 👇
1️⃣ Mata in GitHub-lagringsplatsen Vi använder GitIngest för att konvertera en användardefinierad GitHub-lagringsplats till enkla, LLM-klara textdata. LLM:er kommer att använda dessa data som kontext för att generera kod som svar på användarens fråga. Kolla in det här 👇
2️⃣ Mått för kodens korrekthet Vi kommer nu att skapa utvärderingsmått för vår uppgift med hjälp av Opiks G-Eval. Det här måttet bedömer kvaliteten och korrektheten hos den genererade koden genom att jämföra den med en referenskod för grundsanning. Kolla in det här 👇
3️⃣ Mått för kodläsbarhet Det här måttet säkerställer att koden följer korrekt formatering och konsekventa namngivningskonventioner. Den utvärderar också kvaliteten på kommentarer och dokumentsträngar, vilket gör koden lätt att förstå. Kolla in det här 👇
4️⃣ Mått för bästa praxis Det här måttet säkerställer att koden är modulär, effektiv och implementerar korrekt felhantering. Kolla in det här 👇
5️⃣ Generera modellsvar Nu är vi redo att generera svar från båda modellerna. Vi anger den inmatade kodbasen som kontext i prompten och strömmar svaren från båda modellerna parallellt. Kolla in det här 👇
6️⃣ Utvärdera genererad kod Vi utvärderar svaren som genereras av båda modellerna med hjälp av de mätvärden som nämns ovan, vilket ger en detaljerad motivering för varje mätvärde. Kolla in det här👇
7️⃣ Streamlit användargränssnitt Slutligen skapar vi ett intuitivt Streamlit UI som förenklar jämförelse och utvärdering av båda modellerna i ett enda gränssnitt. Kolla in det här 👇
Dags att testa. Fråga 1: Skapa en MCP-server som gör att AI-agenter och chattrobotar kan läsa kod, hantera problem/PR:er, analysera lagringsplatser och automatisera arbetsflöden på GitHub. För de tre mätvärdena: Korrekthet, läsbarhet och bästa praxis: - GPT-5-poäng: 9 - Calude Opus-4.1 poäng: 8.67
Med CodeArena kan du jämföra två valfria modeller. Jag jämförde också kort GPT-5 med Qwen3-Coder! Fråga 2: MCP-servern ansluter till Notions API, vilket gör det möjligt för AI att hantera anteckningar, att göra-listor och databaser för förbättrad produktivitet och organisation. Kolla in det här 👇
Du hittar all kod och allt du behöver för att köra CodeArena i @LightningAI Studio nedan! Ta en provtur:
Slutligen, här är ytterligare 10 utvärderingar jag körde med Opik för att bygga MCP-servrar. - GPT-5 vann i 6 fall. - Claude Opus 4.1 vann i de återstående 4 På det hela taget är båda modellerna exceptionellt bra, medan GPT-5 är marginellt bättre. Kolla in det här 👇
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @akshay_pachaar✔️ För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!
Akshay 🚀
Akshay 🚀8 aug. 22:31
Låt oss jämföra GPT-5 och Claude Opus-4.1 för kodgenerering:
33,31K