Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Porównajmy GPT-5 i Claude Opus-4.1 pod kątem generowania kodu:
Dziś budujemy CodeArena, gdzie możesz porównać dowolne dwa modele generowania kodu obok siebie.
Stos technologiczny:
- @LiteLLM do orkiestracji
- @Cometml's Opik do budowy pipeline'u ewaluacyjnego
- @OpenRouterAI do uzyskiwania dostępu do najnowocześniejszych modeli
- @LightningAI do hostowania CodeArena
Zaczynajmy!🚀
Oto workflow:
- Wybierz modele do porównania generowania kodu
- Zaimportuj repozytorium GitHub i zaoferuj je jako kontekst dla LLM-ów
- Użyj kontekstu + zapytania, aby wygenerować kod z obu modeli
- Oceń wygenerowany kod za pomocą G-Eval Opika
Zrealizujmy to!
0️⃣ Załaduj klucze API
W tej demonstracji uzyskamy dostęp do GPT-5 przez openai oraz pozostałych modeli za pomocą OpenRouter.
Przechowuj wymagane klucze w pliku .env, aby załadować je do środowiska.
Sprawdź to 👇

1️⃣ Wczytaj repozytorium GitHub
Używamy GitIngest, aby przekształcić repozytorium GitHub określone przez użytkownika w proste dane tekstowe gotowe do użycia w LLM.
LLM wykorzystają te dane jako kontekst do generowania kodu w odpowiedzi na zapytanie użytkownika.
Sprawdź to 👇

2️⃣ Metryka poprawności kodu
Teraz stworzymy metryki oceny dla naszego zadania, korzystając z G-Eval Opika.
Ta metryka ocenia jakość i poprawność wygenerowanego kodu, porównując go z referencyjnym kodem prawdziwym.
Sprawdź to 👇

3️⃣ Metryka czytelności kodu
Ta metryka zapewnia, że kod przestrzega odpowiedniego formatowania i spójnych konwencji nazewnictwa.
Ocenia również jakość komentarzy i docstringów, które ułatwiają zrozumienie kodu.
Sprawdź to 👇

4️⃣ Najlepsze praktyki metryczne
Ta metryka zapewnia, że kod jest modułowy, wydajny i implementuje odpowiednie zarządzanie błędami.
Sprawdź to 👇

5️⃣ Generuj odpowiedź modelu
Teraz jesteśmy gotowi do generowania odpowiedzi z obu modeli.
Określamy wchłonięty kod jako kontekst w podpowiedzi i strumieniujemy odpowiedzi z obu modeli równolegle.
Sprawdź to 👇

6️⃣ Oceń wygenerowany kod
Ocenimy odpowiedzi wygenerowane przez oba modele, korzystając z wymienionych powyżej metryk, dostarczając szczegółowe uzasadnienie dla każdej metryki.
Sprawdź to👇

7️⃣ Interfejs Streamlit UI
Na koniec tworzymy intuicyjny interfejs Streamlit UI, który upraszcza porównywanie i ocenianie obu modeli w jednym interfejsie.
Sprawdź to 👇

Czas na test..
Zapytanie 1: Zbuduj serwer MCP, który pozwala agentom AI i chatbotom czytać kod, zarządzać problemami/PR-ami, analizować repozytoria i automatyzować przepływy pracy na GitHubie.
W trzech metrykach: Poprawność, Czytelność i Najlepsze praktyki:
- GPT-5 uzyskał: 9
- Calude Opus-4.1 uzyskał: 8.67

CodeArena pozwala na porównanie dowolnych dwóch modeli. Krótko porównałem również GPT-5 z Qwen3-Coder!
Zapytanie 2: Serwer MCP łączy się z API Notion, umożliwiając AI zarządzanie notatkami, listami zadań i bazami danych w celu zwiększenia produktywności i organizacji.
Sprawdź to 👇

Możesz znaleźć cały kod i wszystko, czego potrzebujesz, aby uruchomić CodeArena w @LightningAI Studio poniżej!
Wypróbuj to:
Na koniec, oto 10 kolejnych ocen, które przeprowadziłem używając Opik do budowy serwerów MCP.
- GPT-5 wygrał w 6 przypadkach.
- Claude Opus 4.1 wygrał w pozostałych 4
Ogólnie rzecz biorąc, oba modele są wyjątkowo dobre, z GPT-5 nieznacznie lepszym.
Sprawdź to 👇

Jeśli uznałeś to za interesujące, podziel się tym ze swoją siecią.
Znajdź mnie → @akshay_pachaar✔️
Po więcej informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!

8 sie, 22:31
Porównajmy GPT-5 i Claude Opus-4.1 pod kątem generowania kodu:
33,3K
Najlepsze
Ranking
Ulubione