Låt oss jämföra OpenAI gpt-oss och Qwen-3 när det gäller matematik och resonemang:
Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀
Här är arbetsflödet: - Användaren skickar in en förfrågan - Båda modellerna genererar resonemangstoken tillsammans med det slutliga svaret. - Fråge-, svars- och resonemangslogik skickas för utvärdering - Detaljerad utvärdering utförs med hjälp av Opiks G-Eval över fyra mätvärden. Låt oss genomföra detta!
1️⃣ Ladda API-nycklar I den här demon kommer vi att använda OpenRouter för att komma åt gpt-oss- och Qwen3-modellerna. OpenAI-nyckel krävs för domaren LLM i G-Eval. Lagra OpenRouter- och OpenAI API-nycklar i en .env-fil för att ladda in i miljön. Kolla in det här 👇
2️⃣ Metrisk för logiskt resonemang Vi kommer nu att skapa utvärderingsmått för vår uppgift med hjälp av Opiks G-Eval. Detta mått utvärderar samstämmigheten och giltigheten av logiska steg och slutsatser. Kolla in det här 👇
3️⃣ Mått för faktisk noggrannhet Detta mått bedömer riktigheten i faktapåståenden och information. Kolla in det här 👇
4️⃣ Metrisk för samstämmighet Det här måttet utvärderar tydligheten och organisationen av svaret. Kolla in det här 👇
5️⃣ Metrisk för analysdjup Detta mått utvärderar djupet och insiktsfullheten i resonemanget. Kolla in det här 👇
6️⃣ Generera modellsvar Nu är vi redo att generera svar från båda modellerna. Vi anger frågan i promptrutan och strömmar svar från båda modellerna samtidigt. Kolla in det här 👇
7️⃣ Utvärdera genererade resonemang Slutligen använder vi GPT-4o som domare LLM. Den utvärderar båda resonemangssvaren, genererar de mätvärden som nämns ovan och ger information om varje mått. Kolla in det här 👇
Dags att testa. (1/2) Fråga 1: Skapa en MCP-server som bevakar en GitHub-lagringsplats för nya problem och skickar dem till en Telegram-grupp. Här är de detaljerade resultaten:
Dags att testa. (2/2) Fråga 2: Bygg en MCP-server som skapar en ny Notion-sida när någon släpper en fil i en specifik Google Drive-mapp. Här är de detaljerade resultaten:
Båda modellerna är mycket kapabla: Qwen 3 erbjuder utförliga och detaljerade resonemang, medan GPT-oss är skarp och exakt. Testa det gärna på mer utmanande frågor. Här är all kod:
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @akshay_pachaar✔️ För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!
Akshay 🚀
Akshay 🚀6 aug. 21:29
Låt oss jämföra OpenAI gpt-oss och Qwen-3 när det gäller matematik och resonemang:
Dags att testa. (1/2) Fråga 1: En snigel klättrar uppför en 10 meter hög vägg. Varje dag klättrar den 3 fot, men varje natt glider den tillbaka 2 fot. Vilken dag kommer den att nå toppen? Här är de detaljerade resultaten:
Dags att testa. (2/2) Fråga 2: En skenande vagn är på väg mot 5 personer. Du kan dra i en spak för att avleda den till ett sidospår där den kommer att döda 1 person istället. Vad ska du göra och varför? Här är de detaljerade resultaten:
Båda modellerna är mycket kapabla: Qwen 3 erbjuder utförliga och detaljerade resonemang, medan GPT-oss är skarp och exakt. Testa det gärna på mer utmanande frågor. Här är all kod:
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @akshay_pachaar✔️ För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!
Akshay 🚀
Akshay 🚀6 aug. 21:29
Låt oss jämföra OpenAI gpt-oss och Qwen-3 när det gäller matematik och resonemang:
300,69K