Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Să comparăm GPT-5 și Claude Opus-4.1 pentru generarea codului:
Astăzi, construim un CodeArena, unde puteți compara oricare două modele de generare de cod unul lângă altul.
Stiva tehnologică:
- @LiteLLM pentru orchestrare
- @Cometml Opik va construi conducta de evaluare
- @OpenRouterAI pentru a accesa modele de ultimă generație
- @LightningAI pentru găzduirea CodeArena
Să mergem!🚀
Iată fluxul de lucru:
- Alegeți modele pentru compararea generării de cod
- Importați un depozit GitHub și oferiți-l ca context LLM-urilor
- Utilizați context + interogare pentru a genera cod din ambele modele
- Evaluați codul generat folosind G-Eval de la Opik
Să implementăm asta!
0️⃣ Încărcați cheile API
În această demonstrație vom accesa GPT-5 prin openai și restul modelelor folosind OpenRouter.
Stocați cheile necesare într-un fișier .env pentru a le încărca în mediu.
Verificați acest lucru 👇

1️⃣ Ingerați depozitul GitHub
Folosim GitIngest pentru a converti un depozit GitHub specificat de utilizator în date text simple, pregătite pentru LLM.
LLM-urile vor utiliza aceste date ca context pentru a genera cod ca răspuns la interogarea utilizatorului.
Verifică 👇 asta

2️⃣ Metrica corectitudinii codului
Acum vom crea valori de evaluare pentru sarcina noastră folosind G-Eval de la Opik.
Această metrică evaluează calitatea și corectitudinea codului generat comparându-l cu un cod de referință de bază.
Verifică 👇 asta

3️⃣ Metrica de lizibilitate a codului
Această valoare asigură că codul respectă formatarea corectă și convențiile de denumire consecvente.
De asemenea, evaluează calitatea comentariilor și a șirurilor de documente, ceea ce face codul ușor de înțeles.
Verifică 👇 asta

4️⃣ Indicatorul celor mai bune practici
Această valoare asigură că codul este modular, eficient și implementează o gestionare adecvată a erorilor.
Verifică 👇 asta

5️⃣ Generați răspunsul modelului
Acum suntem cu toții pregătiți să generăm răspunsuri de la ambele modele.
Specificăm baza de cod ingerată ca context în prompt și transmitem răspunsurile de la ambele modele în paralel.
Verificați acest lucru 👇

6️⃣ Evaluați codul generat
Evaluăm răspunsurile generate de ambele modele folosind valorile menționate mai sus, oferind un raționament detaliat pentru fiecare metrică.
Verifică👇 asta

7️⃣ Interfață de utilizare Streamlit
În cele din urmă, creăm o interfață intuitivă Streamlit UI care simplifică compararea și evaluarea ambelor modele într-o singură interfață.
Verificați acest lucru 👇

E timpul să testez..
Interogare 1: Construiți un server MCP care permite agenților AI și chatbot-urilor să citească codul, să gestioneze probleme/PR-uri, să analizeze depozitele și să automatizeze fluxurile de lucru pe GitHub.
În cele trei valori: Corectitudine, Lizibilitate și Cele mai bune practici:
- GPT-5 punctat: 9
- Calude Opus-4.1 punctat: 8.67

CodeArena vă permite să comparați oricare două modele. De asemenea, am comparat pe scurt GPT-5 cu Qwen3-Coder!
Interogare 2: Serverul MCP se conectează la API-ul Notion, permițând AI să gestioneze note, liste de sarcini și baze de date pentru productivitate și organizare sporite.
Verifică 👇 asta

Puteți găsi mai jos tot codul și tot ce aveți nevoie pentru a rula CodeArena în @LightningAI Studio!
Faceți-l o învârtire:
În cele din urmă, iată încă 10 evaluări pe care le-am rulat folosind Opik la construirea serverelor MCP.
- GPT-5 a câștigat în 6 cazuri.
- Claude Opus 4.1 a câștigat în restul de 4
În general, ambele modele sunt excepțional de bune, GPT-5 fiind marginal mai bun.
Verificați acest lucru 👇

Dacă ți s-a părut util, redistribui cu rețeaua ta.
Găsește-mă → @akshay_pachaar✔️
Pentru mai multe informații și tutoriale despre LLM-uri, agenți AI și învățare automată!

8 aug., 22:31
Să comparăm GPT-5 și Claude Opus-4.1 pentru generarea codului:
33,7K
Limită superioară
Clasament
Favorite