DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Să comparăm GPT-5 și Claude Opus-4.1 pentru generarea codului:

Astăzi, construim un CodeArena, unde puteți compara oricare două modele de generare de cod unul lângă altul. Stiva tehnologică: - @LiteLLM pentru orchestrare - @Cometml Opik va construi conducta de evaluare - @OpenRouterAI pentru a accesa modele de ultimă generație - @LightningAI pentru găzduirea CodeArena Să mergem!🚀

Iată fluxul de lucru: - Alegeți modele pentru compararea generării de cod - Importați un depozit GitHub și oferiți-l ca context LLM-urilor - Utilizați context + interogare pentru a genera cod din ambele modele - Evaluați codul generat folosind G-Eval de la Opik Să implementăm asta!

0️⃣ Încărcați cheile API În această demonstrație vom accesa GPT-5 prin openai și restul modelelor folosind OpenRouter. Stocați cheile necesare într-un fișier .env pentru a le încărca în mediu. Verificați acest lucru 👇

1️⃣ Ingerați depozitul GitHub Folosim GitIngest pentru a converti un depozit GitHub specificat de utilizator în date text simple, pregătite pentru LLM. LLM-urile vor utiliza aceste date ca context pentru a genera cod ca răspuns la interogarea utilizatorului. Verifică 👇 asta

2️⃣ Metrica corectitudinii codului Acum vom crea valori de evaluare pentru sarcina noastră folosind G-Eval de la Opik. Această metrică evaluează calitatea și corectitudinea codului generat comparându-l cu un cod de referință de bază. Verifică 👇 asta

3️⃣ Metrica de lizibilitate a codului Această valoare asigură că codul respectă formatarea corectă și convențiile de denumire consecvente. De asemenea, evaluează calitatea comentariilor și a șirurilor de documente, ceea ce face codul ușor de înțeles. Verifică 👇 asta

4️⃣ Indicatorul celor mai bune practici Această valoare asigură că codul este modular, eficient și implementează o gestionare adecvată a erorilor. Verifică 👇 asta

5️⃣ Generați răspunsul modelului Acum suntem cu toții pregătiți să generăm răspunsuri de la ambele modele. Specificăm baza de cod ingerată ca context în prompt și transmitem răspunsurile de la ambele modele în paralel. Verificați acest lucru 👇

6️⃣ Evaluați codul generat Evaluăm răspunsurile generate de ambele modele folosind valorile menționate mai sus, oferind un raționament detaliat pentru fiecare metrică. Verifică👇 asta

7️⃣ Interfață de utilizare Streamlit În cele din urmă, creăm o interfață intuitivă Streamlit UI care simplifică compararea și evaluarea ambelor modele într-o singură interfață. Verificați acest lucru 👇

E timpul să testez.. Interogare 1: Construiți un server MCP care permite agenților AI și chatbot-urilor să citească codul, să gestioneze probleme/PR-uri, să analizeze depozitele și să automatizeze fluxurile de lucru pe GitHub. În cele trei valori: Corectitudine, Lizibilitate și Cele mai bune practici: - GPT-5 punctat: 9 - Calude Opus-4.1 punctat: 8.67

CodeArena vă permite să comparați oricare două modele. De asemenea, am comparat pe scurt GPT-5 cu Qwen3-Coder! Interogare 2: Serverul MCP se conectează la API-ul Notion, permițând AI să gestioneze note, liste de sarcini și baze de date pentru productivitate și organizare sporite. Verifică 👇 asta

Puteți găsi mai jos tot codul și tot ce aveți nevoie pentru a rula CodeArena în @LightningAI Studio! Faceți-l o învârtire:

În cele din urmă, iată încă 10 evaluări pe care le-am rulat folosind Opik la construirea serverelor MCP. - GPT-5 a câștigat în 6 cazuri. - Claude Opus 4.1 a câștigat în restul de 4 În general, ambele modele sunt excepțional de bune, GPT-5 fiind marginal mai bun. Verificați acest lucru 👇

Dacă ți s-a părut util, redistribui cu rețeaua ta. Găsește-mă → @akshay_pachaar✔️ Pentru mai multe informații și tutoriale despre LLM-uri, agenți AI și învățare automată!

33,7K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante