La oss sammenligne GPT-5 og Claude Opus-4.1 for kodegenerering:
I dag bygger vi en CodeArena, der du kan sammenligne to kodegenerasjonsmodeller side om side. Teknisk stabel: - @LiteLLM for orkestrering - @Cometml's Opik skal bygge eval-rørledningen - @OpenRouterAI for å få tilgang til banebrytende modeller - @LightningAI for hosting av CodeArena La oss gå!🚀
Her er arbeidsflyten: - Velg modeller for sammenligning av kodegenerering - Importer et GitHub-depot og tilby det som kontekst til LLM-er - Bruk kontekst + spørring for å generere kode fra begge modellene - Evaluer generert kode ved hjelp av Opiks G-Eval La oss implementere dette!
0️⃣ Last inn API-nøkler I denne demoen får vi tilgang til GPT-5 gjennom openai og resten av modellene ved hjelp av OpenRouter. Lagre de nødvendige nøklene i en .env-fil for å laste inn i miljøet. Sjekk dette 👇
1️⃣ Ta inn GitHub-repositorium Vi bruker GitIngest til å konvertere et brukerspesifisert GitHub-repositorium til enkle, LLM-klare tekstdata. LLM-er vil bruke disse dataene som kontekst for å generere kode som svar på brukerens spørsmål. Sjekk dette ut 👇
2️⃣ Beregning av kodens korrekthet Vi vil nå lage evalueringsberegninger for oppgaven vår ved hjelp av Opiks G-Eval. Denne beregningen vurderer kvaliteten og korrektheten til generert kode ved å sammenligne den med en referansegrunnsannhetskode. Sjekk dette ut 👇
3️⃣ Måling av kodelesbarhet Denne målingen sikrer at koden overholder riktig formatering og konsekvente navnekonvensjoner. Den evaluerer også kvaliteten på kommentarer og dokumentstrenger, noe som gjør koden enkel å forstå. Sjekk dette ut 👇
4️⃣ Måling av anbefalte fremgangsmåter Denne beregningen sikrer at koden er modulær, effektiv og implementerer riktig feilhåndtering. Sjekk dette ut 👇
5️⃣ Generer modellsvar Nå er vi klare til å generere svar fra begge modellene. Vi angir den inntatte kodebasen som kontekst i ledeteksten, og strømmer svarene fra begge modellene parallelt. Sjekk dette 👇
6️⃣ Evaluer generert kode Vi evaluerer svarene generert av begge modellene ved å bruke beregningene nevnt ovenfor, og gir detaljert begrunnelse for hver beregning. Sjekk dette ut👇
7️⃣ Strømformet brukergrensesnitt Til slutt lager vi et intuitivt Streamlit-brukergrensesnitt som forenkler sammenligning og evaluering av begge modellene i ett enkelt grensesnitt. Sjekk dette 👇
På tide å teste. Spørring 1: Bygg en MCP-server som lar AI-agenter og chatroboter lese kode, administrere problemer/PR-er, analysere repositorier og automatisere arbeidsflyter på GitHub. På tvers av de tre beregningene: Korrekthet, lesbarhet og anbefalte fremgangsmåter: - GPT-5 scoret: 9 - Calude Opus-4.1 scoret: 8.67
CodeArena lar deg sammenligne to modeller. Jeg sammenlignet også kort GPT-5 med Qwen3-Coder! Spørring 2: MCP-serveren kobles til Notions API, slik at AI kan administrere notater, gjøremålslister og databaser for forbedret produktivitet og organisering. Sjekk dette ut 👇
Du finner all koden og alt du trenger for å kjøre CodeArena i @LightningAI Studio nedenfor! Ta det en tur:
Til slutt, her er 10 flere evalueringer jeg kjørte med Opik på å bygge MCP-servere. - GPT-5 vant i 6 tilfeller. - Claude Opus 4.1 vant i de resterende 4 Totalt sett er begge modellene eksepsjonelt gode, med GPT-5 marginalt bedre. Sjekk dette 👇
Hvis du syntes det var innsiktsfullt, kan du dele det med nettverket ditt. Finn meg → @akshay_pachaar✔️ For mer innsikt og opplæringer om LLM-er, AI-agenter og maskinlæring!
Akshay 🚀
Akshay 🚀8. aug., 22:31
La oss sammenligne GPT-5 og Claude Opus-4.1 for kodegenerering:
33,29K