Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Porovnejme GPT-5 a Claude Opus-4.1 pro generování kódu:
Dnes vytváříme CodeArenu, kde můžete porovnat libovolné dva modely code-gen vedle sebe.
Technologický zásobník:
- @LiteLLM pro orchestraci
- @Cometml's Opik na stavbu eval pipeline
- @OpenRouterAI přístup k nejmodernějším modelům
- @LightningAI pro hostování CodeAreny
Jdeme!🚀
Zde je pracovní postup:
- Výběr modelů pro porovnání generování kódu
- Importujte repozitář GitHub a nabídněte jej jako kontext pro LLM
- Použití kontextu + dotazu ke generování kódu z obou modelů
- Vyhodnoťte vygenerovaný kód pomocí Opik's G-Eval
Pojďme to implementovat!
0️⃣ Načíst klíče API
V této ukázce přistoupíme k GPT-5 prostřednictvím openai a ke zbytku modelů pomocí OpenRouteru.
Uložte požadované klíče do souboru .env, který se načte do prostředí.
Zkontrolujte toto 👇

1️⃣ Ingestování úložiště GitHub
GitIngest používáme k převodu uživatelem specifikovaného úložiště GitHub na přímočará textová data připravená pro LLM.
LLM využijí tato data jako kontext pro generování kódu v reakci na dotaz uživatele.
Podívejte se na 👇 to

2️⃣ Metrika správnosti kódu
Nyní si vytvoříme vyhodnocovací metriky pro náš úkol pomocí Opik's G-Eval.
Tato metrika hodnotí kvalitu a správnost generovaného kódu jeho porovnáním s referenčním základním pravdivým kódem.
Podívejte se na 👇 to

3️⃣ Metrika čitelnosti kódu
Tato metrika zajišťuje, že kód dodržuje správné formátování a konzistentní konvence pojmenování.
Hodnotí také kvalitu komentářů a řetězců dokumentů, díky nimž je kód snadno pochopitelný.
Podívejte se na 👇 to

4️⃣ Metrika osvědčených postupů
Tato metrika zajišťuje, že kód je modulární, efektivní a implementuje správné zpracování chyb.
Podívejte se na 👇 to

5️⃣ Generování odezvy modelu
Nyní jsme všichni připraveni generovat odpovědi z obou modelů.
Ingestovaný základ kódu určíme jako kontext ve výzvě a paralelně streamujeme odpovědi z obou modelů.
Zkontrolujte toto 👇

6️⃣ Vyhodnoťte vygenerovaný kód
Odpovědi generované oběma modely vyhodnocujeme pomocí výše uvedených metrik a poskytujeme podrobné zdůvodnění každé metriky.
Podívejte se na👇 to

7️⃣ Zjednodušené uživatelské rozhraní
Nakonec vytvoříme intuitivní uživatelské rozhraní Streamlit, které zjednodušuje porovnávání a vyhodnocování obou modelů v rámci jediného rozhraní.
Zkontrolujte toto 👇

Je čas vyzkoušet...
Dotaz 1: Vytvořte server MCP, který umožní agentům AI a chatbotům číst kód, spravovat problémy/žádosti o přijetí změn, analyzovat úložiště a automatizovat pracovní postupy na GitHubu.
Napříč třemi metrikami: Správnost, čitelnost a doporučené postupy:
- Skóre GPT-5: 9
- Calude Opus-4.1 skóroval: 8.67

CodeArena vám umožní porovnat libovolné dva modely. Také jsem krátce porovnal GPT-5 s Qwen3-Coder!
Dotaz 2: MCP Server se připojuje k rozhraní API společnosti Notion, což umožňuje umělé inteligenci spravovat poznámky, seznamy úkolů a databáze pro zvýšení produktivity a organizace.
Podívejte se na 👇 to

Veškerý kód a vše, co potřebujete ke spuštění CodeAreny, najdete v @LightningAI Studiu níže!
Vezměte to na projížďku:
Na závěr je zde 10 dalších hodnocení, která jsem provedl pomocí Opik při vytváření MCP serverů.
- GPT-5 vyhrál v 6 případech.
- Claude Opus 4.1 zvítězil ve zbývajících 4
Celkově jsou oba modely výjimečně dobré, přičemž GPT-5 je o něco lepší.
Zkontrolujte toto 👇

Pokud vám to připadalo užitečné, sdílejte to znovu se svou sítí.
Najdi mě → @akshay_pachaar✔️
Další poznatky a návody na LLM, AI agenty a strojové učení!

8. 8. 22:31
Porovnejme GPT-5 a Claude Opus-4.1 pro generování kódu:
33,3K
Top
Hodnocení
Oblíbené