Porównajmy GPT-5 i Claude Opus-4.1 pod kątem generowania kodu:
Dziś budujemy CodeArena, gdzie możesz porównać dowolne dwa modele generowania kodu obok siebie. Stos technologiczny: - @LiteLLM do orkiestracji - @Cometml's Opik do budowy pipeline'u ewaluacyjnego - @OpenRouterAI do uzyskiwania dostępu do najnowocześniejszych modeli - @LightningAI do hostowania CodeArena Zaczynajmy!🚀
Oto workflow: - Wybierz modele do porównania generowania kodu - Zaimportuj repozytorium GitHub i zaoferuj je jako kontekst dla LLM-ów - Użyj kontekstu + zapytania, aby wygenerować kod z obu modeli - Oceń wygenerowany kod za pomocą G-Eval Opika Zrealizujmy to!
0️⃣ Załaduj klucze API W tej demonstracji uzyskamy dostęp do GPT-5 przez openai oraz pozostałych modeli za pomocą OpenRouter. Przechowuj wymagane klucze w pliku .env, aby załadować je do środowiska. Sprawdź to 👇
1️⃣ Wczytaj repozytorium GitHub Używamy GitIngest, aby przekształcić repozytorium GitHub określone przez użytkownika w proste dane tekstowe gotowe do użycia w LLM. LLM wykorzystają te dane jako kontekst do generowania kodu w odpowiedzi na zapytanie użytkownika. Sprawdź to 👇
2️⃣ Metryka poprawności kodu Teraz stworzymy metryki oceny dla naszego zadania, korzystając z G-Eval Opika. Ta metryka ocenia jakość i poprawność wygenerowanego kodu, porównując go z referencyjnym kodem prawdziwym. Sprawdź to 👇
3️⃣ Metryka czytelności kodu Ta metryka zapewnia, że kod przestrzega odpowiedniego formatowania i spójnych konwencji nazewnictwa. Ocenia również jakość komentarzy i docstringów, które ułatwiają zrozumienie kodu. Sprawdź to 👇
4️⃣ Najlepsze praktyki metryczne Ta metryka zapewnia, że kod jest modułowy, wydajny i implementuje odpowiednie zarządzanie błędami. Sprawdź to 👇
5️⃣ Generuj odpowiedź modelu Teraz jesteśmy gotowi do generowania odpowiedzi z obu modeli. Określamy wchłonięty kod jako kontekst w podpowiedzi i strumieniujemy odpowiedzi z obu modeli równolegle. Sprawdź to 👇
6️⃣ Oceń wygenerowany kod Ocenimy odpowiedzi wygenerowane przez oba modele, korzystając z wymienionych powyżej metryk, dostarczając szczegółowe uzasadnienie dla każdej metryki. Sprawdź to👇
7️⃣ Interfejs Streamlit UI Na koniec tworzymy intuicyjny interfejs Streamlit UI, który upraszcza porównywanie i ocenianie obu modeli w jednym interfejsie. Sprawdź to 👇
Czas na test.. Zapytanie 1: Zbuduj serwer MCP, który pozwala agentom AI i chatbotom czytać kod, zarządzać problemami/PR-ami, analizować repozytoria i automatyzować przepływy pracy na GitHubie. W trzech metrykach: Poprawność, Czytelność i Najlepsze praktyki: - GPT-5 uzyskał: 9 - Calude Opus-4.1 uzyskał: 8.67
CodeArena pozwala na porównanie dowolnych dwóch modeli. Krótko porównałem również GPT-5 z Qwen3-Coder! Zapytanie 2: Serwer MCP łączy się z API Notion, umożliwiając AI zarządzanie notatkami, listami zadań i bazami danych w celu zwiększenia produktywności i organizacji. Sprawdź to 👇
Możesz znaleźć cały kod i wszystko, czego potrzebujesz, aby uruchomić CodeArena w @LightningAI Studio poniżej! Wypróbuj to:
Na koniec, oto 10 kolejnych ocen, które przeprowadziłem używając Opik do budowy serwerów MCP. - GPT-5 wygrał w 6 przypadkach. - Claude Opus 4.1 wygrał w pozostałych 4 Ogólnie rzecz biorąc, oba modele są wyjątkowo dobre, z GPT-5 nieznacznie lepszym. Sprawdź to 👇
Jeśli uznałeś to za interesujące, podziel się tym ze swoją siecią. Znajdź mnie → @akshay_pachaar✔️ Po więcej informacji i samouczków na temat LLM, agentów AI i uczenia maszynowego!
Akshay 🚀
Akshay 🚀8 sie, 22:31
Porównajmy GPT-5 i Claude Opus-4.1 pod kątem generowania kodu:
33,3K