Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Laten we GPT-5 en Claude Opus-4.1 vergelijken voor codegeneratie:
Vandaag bouwen we een CodeArena, waar je twee code-gen modellen naast elkaar kunt vergelijken.
Technische stack:
- @LiteLLM voor orkestratie
- @Cometml's Opik om de evaluatiepipeline te bouwen
- @OpenRouterAI om toegang te krijgen tot de nieuwste modellen
- @LightningAI voor het hosten van CodeArena
Laten we gaan!🚀
Hier is de workflow:
- Kies modellen voor de vergelijking van codegeneratie
- Importeer een GitHub-repository en bied deze als context aan voor LLM's
- Gebruik context + query om code te genereren vanuit beide modellen
- Evalueer de gegenereerde code met Opik's G-Eval
Laten we dit implementeren!
0️⃣ Laad API-sleutels
In deze demo zullen we GPT-5 benaderen via openai en de rest van de modellen met behulp van OpenRouter.
Bewaar de vereiste sleutels in een .env-bestand om in de omgeving te laden.
Controleer dit 👇

1️⃣ Ingest GitHub-repo
We gebruiken GitIngest om een door de gebruiker opgegeven GitHub-repository om te zetten in eenvoudige, LLM-klaar tekstdata.
LLM's zullen deze data gebruiken als context om code te genereren als reactie op de vraag van de gebruiker.
Bekijk dit 👇

2️⃣ Code correctheid metric
We gaan nu evaluatiemetrics voor onze taak creëren met Opik's G-Eval.
Deze metric beoordeelt de kwaliteit en correctheid van de gegenereerde code door deze te vergelijken met een referentie grondwaarheidscode.
Bekijk dit 👇

3️⃣ Code leesbaarheid metric
Deze metric zorgt ervoor dat de code voldoet aan de juiste opmaak en consistente naamgevingsconventies.
Het evalueert ook de kwaliteit van opmerkingen en docstrings, die de code gemakkelijk te begrijpen maken.
Bekijk dit 👇

4️⃣ Beste praktijken maatstaf
Deze maatstaf zorgt ervoor dat de code modulair, efficiënt is en juiste foutafhandeling implementeert.
Bekijk dit 👇

5️⃣ Genereer modelreactie
Nu zijn we helemaal klaar om reacties van beide modellen te genereren.
We specificeren de ingesloten codebase als context in de prompt en streamen de reacties van beide modellen parallel.
Bekijk dit 👇

6️⃣ Evalueer de gegenereerde code
We evalueren de reacties die door beide modellen zijn gegenereerd met behulp van de hierboven genoemde metrics, en geven gedetailleerde redeneringen voor elke metric.
Bekijk dit👇

7️⃣ Streamlit UI
Ten slotte creëren we een intuïtieve Streamlit UI die het vergelijken en evalueren van beide modellen binnen één interface vereenvoudigt.
Bekijk dit 👇

Tijd om te testen..
Vraag 1: Bouw een MCP-server die AI-agenten en chatbots in staat stelt om code te lezen, problemen/PR's te beheren, repositories te analyseren en workflows op GitHub te automatiseren.
Over de drie metrics: Correctheid, Leesbaarheid en Beste praktijken:
- GPT-5 scoorde: 9
- Calude Opus-4.1 scoorde: 8,67

CodeArena stelt je in staat om twee modellen met elkaar te vergelijken. Ik heb ook kort GPT-5 vergeleken met Qwen3-Coder!
Query 2: De MCP Server maakt verbinding met de API van Notion, waardoor AI notities, takenlijsten en databases kan beheren voor verbeterde productiviteit en organisatie.
Bekijk dit 👇

Je kunt alle code en alles wat je nodig hebt om CodeArena te draaien vinden in de @LightningAI Studio hieronder!
Probeer het uit:
Uiteindelijk zijn hier 10 extra evaluaties die ik heb uitgevoerd met Opik voor het bouwen van MCP-servers.
- GPT-5 won in 6 gevallen.
- Claude Opus 4.1 won in de overige 4.
Over het algemeen zijn beide modellen uitzonderlijk goed, met GPT-5 net iets beter.
Bekijk dit 👇

Als je het inzichtelijk vond, deel het dan met je netwerk.
Vind me → @akshay_pachaar✔️
Voor meer inzichten en tutorials over LLM's, AI Agents en Machine Learning!

8 aug, 22:31
Laten we GPT-5 en Claude Opus-4.1 vergelijken voor codegeneratie:
33,72K
Boven
Positie
Favorieten