Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Låt oss jämföra OpenAI gpt-oss och Qwen-3 när det gäller matematik och resonemang:
Before we dive in, here's a quick demo of what we're building!
Tech stack:
- @LiteLLM for orchestration
- @Cometml's Opik to build the eval pipeline (open-source)
- @OpenRouterAI to access the models
You'll also learn about G-Eval & building custom eval metrics.
Let's go! 🚀
Här är arbetsflödet:
- Användaren skickar in en förfrågan
- Båda modellerna genererar resonemangstoken tillsammans med det slutliga svaret.
- Fråge-, svars- och resonemangslogik skickas för utvärdering
- Detaljerad utvärdering utförs med hjälp av Opiks G-Eval över fyra mätvärden.
Låt oss genomföra detta!
1️⃣ Ladda API-nycklar
I den här demon kommer vi att använda OpenRouter för att komma åt gpt-oss- och Qwen3-modellerna.
OpenAI-nyckel krävs för domaren LLM i G-Eval.
Lagra OpenRouter- och OpenAI API-nycklar i en .env-fil för att ladda in i miljön.
Kolla in det här 👇

2️⃣ Metrisk för logiskt resonemang
Vi kommer nu att skapa utvärderingsmått för vår uppgift med hjälp av Opiks G-Eval.
Detta mått utvärderar samstämmigheten och giltigheten av logiska steg och slutsatser.
Kolla in det här 👇

3️⃣ Mått för faktisk noggrannhet
Detta mått bedömer riktigheten i faktapåståenden och information.
Kolla in det här 👇

4️⃣ Metrisk för samstämmighet
Det här måttet utvärderar tydligheten och organisationen av svaret.
Kolla in det här 👇

5️⃣ Metrisk för analysdjup
Detta mått utvärderar djupet och insiktsfullheten i resonemanget.
Kolla in det här 👇

6️⃣ Generera modellsvar
Nu är vi redo att generera svar från båda modellerna.
Vi anger frågan i promptrutan och strömmar svar från båda modellerna samtidigt.
Kolla in det här 👇

7️⃣ Utvärdera genererade resonemang
Slutligen använder vi GPT-4o som domare LLM.
Den utvärderar båda resonemangssvaren, genererar de mätvärden som nämns ovan och ger information om varje mått.
Kolla in det här 👇

Dags att testa. (1/2)
Fråga 1: Skapa en MCP-server som bevakar en GitHub-lagringsplats för nya problem och skickar dem till en Telegram-grupp.
Här är de detaljerade resultaten:

Dags att testa. (2/2)
Fråga 2: Bygg en MCP-server som skapar en ny Notion-sida när någon släpper en fil i en specifik Google Drive-mapp.
Här är de detaljerade resultaten:

Båda modellerna är mycket kapabla: Qwen 3 erbjuder utförliga och detaljerade resonemang, medan GPT-oss är skarp och exakt.
Testa det gärna på mer utmanande frågor.
Här är all kod:
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk.
Hitta mig → @akshay_pachaar✔️
För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!

6 aug. 21:29
Låt oss jämföra OpenAI gpt-oss och Qwen-3 när det gäller matematik och resonemang:
Dags att testa. (1/2)
Fråga 1: En snigel klättrar uppför en 10 meter hög vägg. Varje dag klättrar den 3 fot, men varje natt glider den tillbaka 2 fot. Vilken dag kommer den att nå toppen?
Här är de detaljerade resultaten:

Dags att testa. (2/2)
Fråga 2: En skenande vagn är på väg mot 5 personer. Du kan dra i en spak för att avleda den till ett sidospår där den kommer att döda 1 person istället. Vad ska du göra och varför?
Här är de detaljerade resultaten:

Båda modellerna är mycket kapabla: Qwen 3 erbjuder utförliga och detaljerade resonemang, medan GPT-oss är skarp och exakt.
Testa det gärna på mer utmanande frågor.
Här är all kod:
Om du tyckte att det var insiktsfullt, dela det igen med ditt nätverk.
Hitta mig → @akshay_pachaar✔️
För fler insikter och handledningar om LLM:er, AI-agenter och maskininlärning!

6 aug. 21:29
Låt oss jämföra OpenAI gpt-oss och Qwen-3 när det gäller matematik och resonemang:
300,69K
Topp
Rankning
Favoriter