DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Låt oss jämföra OpenAI gpt-oss och Qwen-3 när det gäller matematik och resonemang:

Before we dive in, here's a quick demo of what we're building! Tech stack: - @LiteLLM for orchestration - @Cometml's Opik to build the eval pipeline (open-source) - @OpenRouterAI to access the models You'll also learn about G-Eval & building custom eval metrics. Let's go! 🚀

Här är arbetsflödet: - Användaren skickar in en förfrågan - Båda modellerna genererar resonemangstoken tillsammans med det slutliga svaret. - Fråge-, svars- och resonemangslogik skickas för utvärdering - Detaljerad utvärdering utförs med hjälp av Opiks G-Eval över fyra mätvärden. Låt oss genomföra detta!

1️⃣ Ladda API-nycklar I den här demon kommer vi att använda OpenRouter för att komma åt gpt-oss- och Qwen3-modellerna. OpenAI-nyckel krävs för domaren LLM i G-Eval. Lagra OpenRouter- och OpenAI API-nycklar i en .env-fil för att ladda in i miljön. Kolla in det här 👇

2️⃣ Metrisk för logiskt resonemang Vi kommer nu att skapa utvärderingsmått för vår uppgift med hjälp av Opiks G-Eval. Detta mått utvärderar samstämmigheten och giltigheten av logiska steg och slutsatser. Kolla in det här 👇

3️⃣ Mått för faktisk noggrannhet Detta mått bedömer riktigheten i faktapåståenden och information. Kolla in det här 👇

4️⃣ Metrisk för samstämmighet Det här måttet utvärderar tydligheten och organisationen av svaret. Kolla in det här 👇

5️⃣ Metrisk för analysdjup Detta mått utvärderar djupet och insiktsfullheten i resonemanget. Kolla in det här 👇

6️⃣ Generera modellsvar Nu är vi redo att generera svar från båda modellerna. Vi anger frågan i promptrutan och strömmar svar från båda modellerna samtidigt. Kolla in det här 👇

7️⃣ Utvärdera genererade resonemang Slutligen använder vi GPT-4o som domare LLM. Den utvärderar båda resonemangssvaren, genererar de mätvärden som nämns ovan och ger information om varje mått. Kolla in det här 👇

Dags att testa. (1/2) Fråga 1: Skapa en MCP-server som bevakar en GitHub-lagringsplats för nya problem och skickar dem till en Telegram-grupp. Här är de detaljerade resultaten:

Dags att testa. (2/2) Fråga 2: Bygg en MCP-server som skapar en ny Notion-sida när någon släpper en fil i en specifik Google Drive-mapp. Här är de detaljerade resultaten:

Båda modellerna är mycket kapabla: Qwen 3 erbjuder utförliga och detaljerade resonemang, medan GPT-oss är skarp och exakt. Testa det gärna på mer utmanande frågor. Här är all kod:

Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @akshay_pachaar✔️ För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!

Dags att testa. (1/2) Fråga 1: En snigel klättrar uppför en 10 meter hög vägg. Varje dag klättrar den 3 fot, men varje natt glider den tillbaka 2 fot. Vilken dag kommer den att nå toppen? Här är de detaljerade resultaten:

Dags att testa. (2/2) Fråga 2: En skenande vagn är på väg mot 5 personer. Du kan dra i en spak för att avleda den till ett sidospår där den kommer att döda 1 person istället. Vad ska du göra och varför? Här är de detaljerade resultaten:

Båda modellerna är mycket kapabla: Qwen 3 erbjuder utförliga och detaljerade resonemang, medan GPT-oss är skarp och exakt. Testa det gärna på mer utmanande frågor. Här är all kod:

Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk. Hitta mig → @akshay_pachaar✔️ För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!

300,69K

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda