Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La oss sammenligne GPT-5 og Claude Opus-4.1 for kodegenerering:
I dag bygger vi en CodeArena, der du kan sammenligne to kodegenerasjonsmodeller side om side.
Teknisk stabel:
- @LiteLLM for orkestrering
- @Cometml's Opik skal bygge eval-rørledningen
- @OpenRouterAI for å få tilgang til banebrytende modeller
- @LightningAI for hosting av CodeArena
La oss gå!🚀
Her er arbeidsflyten:
- Velg modeller for sammenligning av kodegenerering
- Importer et GitHub-depot og tilby det som kontekst til LLM-er
- Bruk kontekst + spørring for å generere kode fra begge modellene
- Evaluer generert kode ved hjelp av Opiks G-Eval
La oss implementere dette!
0️⃣ Last inn API-nøkler
I denne demoen får vi tilgang til GPT-5 gjennom openai og resten av modellene ved hjelp av OpenRouter.
Lagre de nødvendige nøklene i en .env-fil for å laste inn i miljøet.
Sjekk dette 👇

1️⃣ Ta inn GitHub-repositorium
Vi bruker GitIngest til å konvertere et brukerspesifisert GitHub-repositorium til enkle, LLM-klare tekstdata.
LLM-er vil bruke disse dataene som kontekst for å generere kode som svar på brukerens spørsmål.
Sjekk dette ut 👇

2️⃣ Beregning av kodens korrekthet
Vi vil nå lage evalueringsberegninger for oppgaven vår ved hjelp av Opiks G-Eval.
Denne beregningen vurderer kvaliteten og korrektheten til generert kode ved å sammenligne den med en referansegrunnsannhetskode.
Sjekk dette ut 👇

3️⃣ Måling av kodelesbarhet
Denne målingen sikrer at koden overholder riktig formatering og konsekvente navnekonvensjoner.
Den evaluerer også kvaliteten på kommentarer og dokumentstrenger, noe som gjør koden enkel å forstå.
Sjekk dette ut 👇

4️⃣ Måling av anbefalte fremgangsmåter
Denne beregningen sikrer at koden er modulær, effektiv og implementerer riktig feilhåndtering.
Sjekk dette ut 👇

5️⃣ Generer modellsvar
Nå er vi klare til å generere svar fra begge modellene.
Vi angir den inntatte kodebasen som kontekst i ledeteksten, og strømmer svarene fra begge modellene parallelt.
Sjekk dette 👇

6️⃣ Evaluer generert kode
Vi evaluerer svarene generert av begge modellene ved å bruke beregningene nevnt ovenfor, og gir detaljert begrunnelse for hver beregning.
Sjekk dette ut👇

7️⃣ Strømformet brukergrensesnitt
Til slutt lager vi et intuitivt Streamlit-brukergrensesnitt som forenkler sammenligning og evaluering av begge modellene i ett enkelt grensesnitt.
Sjekk dette 👇

På tide å teste.
Spørring 1: Bygg en MCP-server som lar AI-agenter og chatroboter lese kode, administrere problemer/PR-er, analysere repositorier og automatisere arbeidsflyter på GitHub.
På tvers av de tre beregningene: Korrekthet, lesbarhet og anbefalte fremgangsmåter:
- GPT-5 scoret: 9
- Calude Opus-4.1 scoret: 8.67

CodeArena lar deg sammenligne to modeller. Jeg sammenlignet også kort GPT-5 med Qwen3-Coder!
Spørring 2: MCP-serveren kobles til Notions API, slik at AI kan administrere notater, gjøremålslister og databaser for forbedret produktivitet og organisering.
Sjekk dette ut 👇

Du finner all koden og alt du trenger for å kjøre CodeArena i @LightningAI Studio nedenfor!
Ta det en tur:
Til slutt, her er 10 flere evalueringer jeg kjørte med Opik på å bygge MCP-servere.
- GPT-5 vant i 6 tilfeller.
- Claude Opus 4.1 vant i de resterende 4
Totalt sett er begge modellene eksepsjonelt gode, med GPT-5 marginalt bedre.
Sjekk dette 👇

Hvis du syntes det var innsiktsfullt, kan du dele det med nettverket ditt.
Finn meg → @akshay_pachaar✔️
For mer innsikt og opplæringer om LLM-er, AI-agenter og maskinlæring!

8. aug., 22:31
La oss sammenligne GPT-5 og Claude Opus-4.1 for kodegenerering:
33,29K
Topp
Rangering
Favoritter