Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Порівняємо GPT-5 та Claude Opus-4.1 для генерації коду:

Сьогодні ми створюємо CodeArena, де ви можете порівнювати будь-які дві моделі код-гену пліч-о-пліч. Технологічний стек: - @LiteLLM для оркестровки - @Cometml's Opik для створення конвеєра eval - @OpenRouterAI доступу до ультрасучасних моделей - @LightningAI для хостингу CodeArena Пішли!🚀

Ось робочий процес: - Вибираємо моделі для порівняння генерації коду - Імпортуйте репозиторій GitHub і запропонуйте його як контекст для LLM - Використовуйте контекст + запит для генерації коду з обох моделей - Оцінка згенерованого коду за допомогою G-Eval від Opik Давайте це реалізуємо!

0️⃣ Завантаження ключів API У цій демонстрації ми отримаємо доступ до GPT-5 через openai та решти моделей за допомогою OpenRouter. Збережіть необхідні ключі у файлі .env для завантаження в середовище. Перевірте це 👇

1️⃣ Використовуйте репозиторій GitHub Ми використовуємо GitIngest для перетворення вказаного користувачем репозиторію GitHub на прості, готові до LLM текстові дані. LLM використовуватимуть ці дані як контекст для генерації коду у відповідь на запит користувача. Перевірте 👇 це

2️⃣ Метрика правильності коду Тепер ми створимо метрики оцінки для нашого завдання за допомогою G-Eval від Opik. Цей показник оцінює якість і правильність згенерованого коду, порівнюючи його з еталонним базовим правдовим кодом. Перевірте 👇 це

3️⃣ Метрика читабельності коду Цей показник гарантує, що код дотримується правильного форматування та послідовних угод про іменування. Він також оцінює якість коментарів і рядків документів, які роблять код простим для розуміння. Перевірте 👇 це

4️⃣ Метрика найкращих практик Цей показник гарантує, що код є модульним, ефективним і реалізує правильну обробку помилок. Перевірте 👇 це

5️⃣ Генерація відповіді моделі Тепер ми готові генерувати відповіді з обох моделей. Ми вказуємо отриману кодову базу як контекст у запиті та транслюємо відповіді з обох моделей паралельно. Перевірте це 👇

6️⃣ Оцінка згенерованого коду Ми оцінюємо відповіді, згенеровані обома моделями, за допомогою згаданих вище показників, надаючи детальне обґрунтування для кожного показника. Перевірте👇 це

7️⃣ Інтерфейс користувача з потоковим підсвічуванням Нарешті, ми створюємо інтуїтивно зрозумілий інтерфейс Streamlit, який спрощує порівняння та оцінку обох моделей в одному інтерфейсі. Перевірте це 👇

Час перевірити.. Запит 1: Створіть MCP-сервер, який дозволяє агентам штучного інтелекту та чат-ботам читати код, керувати проблемами/PR, аналізувати репозиторії та автоматизувати робочі процеси на GitHub. За трьома показниками: правильність, читабельність і найкращі практики: - GPT-5 набрали: 9 - Calude Opus-4.1 оцінив: 8.67

CodeArena дозволяє порівнювати будь-які дві моделі. Я також коротко порівняв GPT-5 з Qwen3-Coder! Запит 2: Сервер MCP підключається до API Notion, що дозволяє штучному інтелекту керувати нотатками, списками справ і базами даних для підвищення продуктивності та організації. Перевірте 👇 це

Ви можете знайти весь код і все необхідне для роботи CodeArena в @LightningAI Studio нижче! Візьміть його для прогулянки:

Нарешті, ось ще 10 оцінок, які я провів за допомогою Opik для побудови MCP-серверів. - GPT-5 переміг у 6 випадках. - Claude Opus 4.1 переміг у решті 4 В цілому, обидві моделі виключно хороші, з GPT-5 трохи краще. Перевірте це 👇

Якщо ви вважаєте її корисною, надішліть запит у свою мережу. Знайди мене → @akshay_pachaar✔️ Щоб отримати більше інформації та навчальних посібників про LLM, агентів штучного інтелекту та машинне навчання!

33,3K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги