Порівняємо GPT-5 та Claude Opus-4.1 для генерації коду:
Сьогодні ми створюємо CodeArena, де ви можете порівнювати будь-які дві моделі код-гену пліч-о-пліч. Технологічний стек: - @LiteLLM для оркестровки - @Cometml's Opik для створення конвеєра eval - @OpenRouterAI доступу до ультрасучасних моделей - @LightningAI для хостингу CodeArena Пішли!🚀
Ось робочий процес: - Вибираємо моделі для порівняння генерації коду - Імпортуйте репозиторій GitHub і запропонуйте його як контекст для LLM - Використовуйте контекст + запит для генерації коду з обох моделей - Оцінка згенерованого коду за допомогою G-Eval від Opik Давайте це реалізуємо!
0️⃣ Завантаження ключів API У цій демонстрації ми отримаємо доступ до GPT-5 через openai та решти моделей за допомогою OpenRouter. Збережіть необхідні ключі у файлі .env для завантаження в середовище. Перевірте це 👇
1️⃣ Використовуйте репозиторій GitHub Ми використовуємо GitIngest для перетворення вказаного користувачем репозиторію GitHub на прості, готові до LLM текстові дані. LLM використовуватимуть ці дані як контекст для генерації коду у відповідь на запит користувача. Перевірте 👇 це
2️⃣ Метрика правильності коду Тепер ми створимо метрики оцінки для нашого завдання за допомогою G-Eval від Opik. Цей показник оцінює якість і правильність згенерованого коду, порівнюючи його з еталонним базовим правдовим кодом. Перевірте 👇 це
3️⃣ Метрика читабельності коду Цей показник гарантує, що код дотримується правильного форматування та послідовних угод про іменування. Він також оцінює якість коментарів і рядків документів, які роблять код простим для розуміння. Перевірте 👇 це
4️⃣ Метрика найкращих практик Цей показник гарантує, що код є модульним, ефективним і реалізує правильну обробку помилок. Перевірте 👇 це
5️⃣ Генерація відповіді моделі Тепер ми готові генерувати відповіді з обох моделей. Ми вказуємо отриману кодову базу як контекст у запиті та транслюємо відповіді з обох моделей паралельно. Перевірте це 👇
6️⃣ Оцінка згенерованого коду Ми оцінюємо відповіді, згенеровані обома моделями, за допомогою згаданих вище показників, надаючи детальне обґрунтування для кожного показника. Перевірте👇 це
7️⃣ Інтерфейс користувача з потоковим підсвічуванням Нарешті, ми створюємо інтуїтивно зрозумілий інтерфейс Streamlit, який спрощує порівняння та оцінку обох моделей в одному інтерфейсі. Перевірте це 👇
Час перевірити.. Запит 1: Створіть MCP-сервер, який дозволяє агентам штучного інтелекту та чат-ботам читати код, керувати проблемами/PR, аналізувати репозиторії та автоматизувати робочі процеси на GitHub. За трьома показниками: правильність, читабельність і найкращі практики: - GPT-5 набрали: 9 - Calude Opus-4.1 оцінив: 8.67
CodeArena дозволяє порівнювати будь-які дві моделі. Я також коротко порівняв GPT-5 з Qwen3-Coder! Запит 2: Сервер MCP підключається до API Notion, що дозволяє штучному інтелекту керувати нотатками, списками справ і базами даних для підвищення продуктивності та організації. Перевірте 👇 це
Ви можете знайти весь код і все необхідне для роботи CodeArena в @LightningAI Studio нижче! Візьміть його для прогулянки:
Нарешті, ось ще 10 оцінок, які я провів за допомогою Opik для побудови MCP-серверів. - GPT-5 переміг у 6 випадках. - Claude Opus 4.1 переміг у решті 4 В цілому, обидві моделі виключно хороші, з GPT-5 трохи краще. Перевірте це 👇
Якщо ви вважаєте її корисною, надішліть запит у свою мережу. Знайди мене → @akshay_pachaar✔️ Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!
Akshay 🚀
Akshay 🚀8 серп., 22:31
Порівняємо GPT-5 та Claude Opus-4.1 для генерації коду:
33,3K