Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Порівняємо GPT-5 та Claude Opus-4.1 для генерації коду:
Сьогодні ми створюємо CodeArena, де ви можете порівнювати будь-які дві моделі код-гену пліч-о-пліч.
Технологічний стек:
- @LiteLLM для оркестровки
- @Cometml's Opik для створення конвеєра eval
- @OpenRouterAI доступу до ультрасучасних моделей
- @LightningAI для хостингу CodeArena
Пішли!🚀
Ось робочий процес:
- Вибираємо моделі для порівняння генерації коду
- Імпортуйте репозиторій GitHub і запропонуйте його як контекст для LLM
- Використовуйте контекст + запит для генерації коду з обох моделей
- Оцінка згенерованого коду за допомогою G-Eval від Opik
Давайте це реалізуємо!
0️⃣ Завантаження ключів API
У цій демонстрації ми отримаємо доступ до GPT-5 через openai та решти моделей за допомогою OpenRouter.
Збережіть необхідні ключі у файлі .env для завантаження в середовище.
Перевірте це 👇

1️⃣ Використовуйте репозиторій GitHub
Ми використовуємо GitIngest для перетворення вказаного користувачем репозиторію GitHub на прості, готові до LLM текстові дані.
LLM використовуватимуть ці дані як контекст для генерації коду у відповідь на запит користувача.
Перевірте 👇 це

2️⃣ Метрика правильності коду
Тепер ми створимо метрики оцінки для нашого завдання за допомогою G-Eval від Opik.
Цей показник оцінює якість і правильність згенерованого коду, порівнюючи його з еталонним базовим правдовим кодом.
Перевірте 👇 це

3️⃣ Метрика читабельності коду
Цей показник гарантує, що код дотримується правильного форматування та послідовних угод про іменування.
Він також оцінює якість коментарів і рядків документів, які роблять код простим для розуміння.
Перевірте 👇 це

4️⃣ Метрика найкращих практик
Цей показник гарантує, що код є модульним, ефективним і реалізує правильну обробку помилок.
Перевірте 👇 це

5️⃣ Генерація відповіді моделі
Тепер ми готові генерувати відповіді з обох моделей.
Ми вказуємо отриману кодову базу як контекст у запиті та транслюємо відповіді з обох моделей паралельно.
Перевірте це 👇

6️⃣ Оцінка згенерованого коду
Ми оцінюємо відповіді, згенеровані обома моделями, за допомогою згаданих вище показників, надаючи детальне обґрунтування для кожного показника.
Перевірте👇 це

7️⃣ Інтерфейс користувача з потоковим підсвічуванням
Нарешті, ми створюємо інтуїтивно зрозумілий інтерфейс Streamlit, який спрощує порівняння та оцінку обох моделей в одному інтерфейсі.
Перевірте це 👇

Час перевірити..
Запит 1: Створіть MCP-сервер, який дозволяє агентам штучного інтелекту та чат-ботам читати код, керувати проблемами/PR, аналізувати репозиторії та автоматизувати робочі процеси на GitHub.
За трьома показниками: правильність, читабельність і найкращі практики:
- GPT-5 набрали: 9
- Calude Opus-4.1 оцінив: 8.67

CodeArena дозволяє порівнювати будь-які дві моделі. Я також коротко порівняв GPT-5 з Qwen3-Coder!
Запит 2: Сервер MCP підключається до API Notion, що дозволяє штучному інтелекту керувати нотатками, списками справ і базами даних для підвищення продуктивності та організації.
Перевірте 👇 це

Ви можете знайти весь код і все необхідне для роботи CodeArena в @LightningAI Studio нижче!
Візьміть його для прогулянки:
Нарешті, ось ще 10 оцінок, які я провів за допомогою Opik для побудови MCP-серверів.
- GPT-5 переміг у 6 випадках.
- Claude Opus 4.1 переміг у решті 4
В цілому, обидві моделі виключно хороші, з GPT-5 трохи краще.
Перевірте це 👇

Якщо ви вважаєте її корисною, надішліть запит у свою мережу.
Знайди мене → @akshay_pachaar✔️
Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!

8 серп., 22:31
Порівняємо GPT-5 та Claude Opus-4.1 для генерації коду:
33,3K
Найкращі
Рейтинг
Вибране