Să comparăm OpenAI gpt-oss și Qwen-3 pe matematică și raționament:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Iată fluxul de lucru: - Utilizatorul trimite interogare - Ambele modele generează simboluri de raționament împreună cu răspunsul final - Logica de interogare, răspuns și raționament sunt trimise spre evaluare - Evaluarea detaliată este efectuată folosind G-Eval de la Opik în patru măsurători. Să implementăm asta!
1️⃣ Încărcați cheile API În această demonstrație, vom folosi OpenRouter pentru a accesa modelele gpt-oss și Qwen3. Cheia OpenAI este necesară pentru judecătorul LLM în G-Eval. Stocați cheile API OpenRouter și OpenAI într-un fișier .env pentru a le încărca în mediu. Verificați acest lucru 👇
2️⃣ Metrica raționamentului logic Acum vom crea valori de evaluare pentru sarcina noastră folosind G-Eval de la Opik. Această măsură evaluează coerența și validitatea pașilor logici și a concluziilor. Verifică 👇 asta
3️⃣ Metrică de precizie factuală Această măsură evaluează acuratețea afirmațiilor și informațiilor factuale. Verifică 👇 asta
4️⃣ Metrică de coerență Această valoare evaluează claritatea și organizarea răspunsului. Verifică 👇 asta
5️⃣ Metrica adâncimii analizei Această măsură evaluează profunzimea și perspicacitatea raționamentului. Verifică 👇 asta
6️⃣ Generați răspunsul modelului Acum suntem cu toții pregătiți să generăm răspunsuri de la ambele modele. Introducem interogarea în caseta de solicitare și transmitem răspunsurile de la ambele modele simultan. Verificați acest lucru 👇
7️⃣ Evaluați raționamentul generat În cele din urmă, folosim GPT-4o ca judecător LLM. Acesta evaluează ambele răspunsuri de raționament, generează valorile menționate mai sus și oferă detalii pentru fiecare măsurătoare. Verifică 👇 asta
E timpul să testez.. (1/2) Interogare 1: Construiți un server MCP care urmărește un depozit GitHub pentru probleme noi și le trimite unui grup Telegram. Iată rezultatele detaliate:
E timpul să testez.. (2/2) Interogare 2: Construiți un server MCP care creează o nouă pagină Notion atunci când cineva plasează un fișier într-un anumit folder Google Drive. Iată rezultatele detaliate:
Ambele modele sunt foarte capabile: Qwen 3 oferă un raționament detaliat și detaliat, în timp ce GPT-oss este clar și precis. Simțiți-vă liber să-l testați pe interogări mai dificile. Iată tot codul:
Dacă ți s-a părut util, redistribui cu rețeaua ta. Găsește-mă → @akshay_pachaar✔️ Pentru mai multe informații și tutoriale despre LLM-uri, agenți AI și învățare automată!
Akshay 🚀
Akshay 🚀6 aug., 21:29
Să comparăm OpenAI gpt-oss și Qwen-3 pe matematică și raționament:
E timpul să testez.. (1/2) Întrebarea 1: Un melc se cațără pe un perete de 10 picioare. În fiecare zi urcă 3 picioare, dar în fiecare noapte alunecă înapoi 2 picioare. În ce zi va ajunge în vârf? Iată rezultatele detaliate:
E timpul să testez.. (2/2) Întrebarea 2: Un cărucior fugar se îndreaptă spre 5 persoane. Puteți trage o pârghie pentru a-l devia pe o pistă laterală unde va ucide 1 persoană. Ce ar trebui să faci și de ce? Iată rezultatele detaliate:
Ambele modele sunt foarte capabile: Qwen 3 oferă un raționament detaliat și detaliat, în timp ce GPT-oss este clar și precis. Simțiți-vă liber să-l testați pe interogări mai dificile. Iată tot codul:
Dacă ți s-a părut util, redistribui cu rețeaua ta. Găsește-mă → @akshay_pachaar✔️ Pentru mai multe informații și tutoriale despre LLM-uri, agenți AI și învățare automată!
Akshay 🚀
Akshay 🚀6 aug., 21:29
Să comparăm OpenAI gpt-oss și Qwen-3 pe matematică și raționament:
300,68K