Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Confrontiamo GPT-5 e Claude Opus-4.1 per la generazione di codice:
Oggi stiamo costruendo un CodeArena, dove puoi confrontare due modelli di generazione di codice fianco a fianco.
Stack tecnologico:
- @LiteLLM per l'orchestrazione
- @Cometml's Opik per costruire la pipeline di valutazione
- @OpenRouterAI per accedere a modelli all'avanguardia
- @LightningAI per ospitare CodeArena
Andiamo!🚀
Ecco il flusso di lavoro:
- Scegli i modelli per il confronto della generazione di codice
- Importa un repository GitHub e offri come contesto agli LLM
- Usa contesto + query per generare codice da entrambi i modelli
- Valuta il codice generato utilizzando G-Eval di Opik
Implementiamo questo!
0️⃣ Carica le chiavi API
In questa demo accederemo a GPT-5 tramite openai e agli altri modelli utilizzando OpenRouter.
Memorizza le chiavi necessarie in un file .env da caricare nell'ambiente.
Controlla questo 👇

1️⃣ Ingestione del repository GitHub
Utilizziamo GitIngest per convertire un repository GitHub specificato dall'utente in dati testuali semplici e pronti per LLM.
Gli LLM utilizzeranno questi dati come contesto per generare codice in risposta alla query dell'utente.
Dai un'occhiata a questo 👇

2️⃣ Metri di correttezza del codice
Ora creeremo metriche di valutazione per il nostro compito utilizzando G-Eval di Opik.
Questa metrica valuta la qualità e la correttezza del codice generato confrontandolo con un codice di riferimento veritiero.
Dai un'occhiata a questo 👇

3️⃣ Metri di leggibilità del codice
Questa metrica garantisce che il codice segua una formattazione adeguata e convenzioni di denominazione coerenti.
Valuta anche la qualità dei commenti e delle docstring, che rendono il codice facile da comprendere.
Dai un'occhiata a questo 👇

4️⃣ Migliori pratiche metrica
Questa metrica garantisce che il codice sia modulare, efficiente e implementi una corretta gestione degli errori.
Dai un'occhiata a questo 👇

5️⃣ Genera risposta del modello
Ora siamo pronti a generare risposte da entrambi i modelli.
Specifichiamo il codice sorgente ingerito come contesto nel prompt e trasmettiamo le risposte da entrambi i modelli in parallelo.
Controlla questo 👇

6️⃣ Valuta il codice generato
Valutiamo le risposte generate da entrambi i modelli utilizzando le metriche menzionate sopra, fornendo una spiegazione dettagliata per ciascuna metrica.
Dai un'occhiata a questo👇

7️⃣ Interfaccia Streamlit
Infine, creiamo un'interfaccia Streamlit intuitiva che semplifica il confronto e la valutazione di entrambi i modelli all'interno di un'unica interfaccia.
Controlla questo 👇

È tempo di test..
Query 1: Costruire un server MCP che consenta agli agenti AI e ai chatbot di leggere il codice, gestire problemi/PR, analizzare i repository e automatizzare i flussi di lavoro su GitHub.
Attraverso le tre metriche: Correttezza, Leggibilità e Migliori pratiche:
- GPT-5 ha ottenuto: 9
- Calude Opus-4.1 ha ottenuto: 8.67

CodeArena ti consente di confrontare due modelli qualsiasi. Ho anche confrontato brevemente GPT-5 con Qwen3-Coder!
Query 2: Il server MCP si connette all'API di Notion, consentendo all'AI di gestire note, elenchi di cose da fare e database per una maggiore produttività e organizzazione.
Dai un'occhiata a questo 👇

Puoi trovare tutto il codice e tutto ciò di cui hai bisogno per eseguire CodeArena nello @LightningAI Studio qui sotto!
Provalo!
Infine, ecco altre 10 valutazioni che ho effettuato utilizzando Opik per costruire server MCP.
- GPT-5 ha vinto in 6 casi.
- Claude Opus 4.1 ha vinto nei restanti 4.
In generale, entrambi i modelli sono eccezionalmente buoni, con GPT-5 leggermente migliore.
Controlla questo 👇

Se lo hai trovato interessante, condividilo con la tua rete.
Trova me → @akshay_pachaar✔️
Per ulteriori approfondimenti e tutorial su LLM, agenti AI e machine learning!

8 ago, 22:31
Confrontiamo GPT-5 e Claude Opus-4.1 per la generazione di codice:
33,3K
Principali
Ranking
Preferiti