Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Să comparăm OpenAI gpt-oss și Qwen-3 pe matematică și raționament:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
Iată fluxul de lucru:
- Utilizatorul trimite interogare
- Ambele modele generează simboluri de raționament împreună cu răspunsul final
- Logica de interogare, răspuns și raționament sunt trimise spre evaluare
- Evaluarea detaliată este efectuată folosind G-Eval de la Opik în patru măsurători.
Să implementăm asta!
1️⃣ Încărcați cheile API
În această demonstrație, vom folosi OpenRouter pentru a accesa modelele gpt-oss și Qwen3.
Cheia OpenAI este necesară pentru judecătorul LLM în G-Eval.
Stocați cheile API OpenRouter și OpenAI într-un fișier .env pentru a le încărca în mediu.
Verificați acest lucru 👇

2️⃣ Metrica raționamentului logic
Acum vom crea valori de evaluare pentru sarcina noastră folosind G-Eval de la Opik.
Această măsură evaluează coerența și validitatea pașilor logici și a concluziilor.
Verifică 👇 asta

3️⃣ Metrică de precizie factuală
Această măsură evaluează acuratețea afirmațiilor și informațiilor factuale.
Verifică 👇 asta

4️⃣ Metrică de coerență
Această valoare evaluează claritatea și organizarea răspunsului.
Verifică 👇 asta

5️⃣ Metrica adâncimii analizei
Această măsură evaluează profunzimea și perspicacitatea raționamentului.
Verifică 👇 asta

6️⃣ Generați răspunsul modelului
Acum suntem cu toții pregătiți să generăm răspunsuri de la ambele modele.
Introducem interogarea în caseta de solicitare și transmitem răspunsurile de la ambele modele simultan.
Verificați acest lucru 👇

7️⃣ Evaluați raționamentul generat
În cele din urmă, folosim GPT-4o ca judecător LLM.
Acesta evaluează ambele răspunsuri de raționament, generează valorile menționate mai sus și oferă detalii pentru fiecare măsurătoare.
Verifică 👇 asta

E timpul să testez.. (1/2)
Interogare 1: Construiți un server MCP care urmărește un depozit GitHub pentru probleme noi și le trimite unui grup Telegram.
Iată rezultatele detaliate:

E timpul să testez.. (2/2)
Interogare 2: Construiți un server MCP care creează o nouă pagină Notion atunci când cineva plasează un fișier într-un anumit folder Google Drive.
Iată rezultatele detaliate:

Ambele modele sunt foarte capabile: Qwen 3 oferă un raționament detaliat și detaliat, în timp ce GPT-oss este clar și precis.
Simțiți-vă liber să-l testați pe interogări mai dificile.
Iată tot codul:
Dacă ți s-a părut util, redistribui cu rețeaua ta.
Găsește-mă → @akshay_pachaar✔️
Pentru mai multe informații și tutoriale despre LLM-uri, agenți AI și învățare automată!

6 aug., 21:29
Să comparăm OpenAI gpt-oss și Qwen-3 pe matematică și raționament:
E timpul să testez.. (1/2)
Întrebarea 1: Un melc se cațără pe un perete de 10 picioare. În fiecare zi urcă 3 picioare, dar în fiecare noapte alunecă înapoi 2 picioare. În ce zi va ajunge în vârf?
Iată rezultatele detaliate:

E timpul să testez.. (2/2)
Întrebarea 2: Un cărucior fugar se îndreaptă spre 5 persoane. Puteți trage o pârghie pentru a-l devia pe o pistă laterală unde va ucide 1 persoană. Ce ar trebui să faci și de ce?
Iată rezultatele detaliate:

Ambele modele sunt foarte capabile: Qwen 3 oferă un raționament detaliat și detaliat, în timp ce GPT-oss este clar și precis.
Simțiți-vă liber să-l testați pe interogări mai dificile.
Iată tot codul:
Dacă ți s-a părut util, redistribui cu rețeaua ta.
Găsește-mă → @akshay_pachaar✔️
Pentru mai multe informații și tutoriale despre LLM-uri, agenți AI și învățare automată!

6 aug., 21:29
Să comparăm OpenAI gpt-oss și Qwen-3 pe matematică și raționament:
300,68K
Limită superioară
Clasament
Favorite