Mari kita bandingkan GPT-5 dan Claude Opus-4.1 untuk pembuatan kode:
Hari ini, kami sedang membangun CodeArena, di mana Anda dapat membandingkan dua model code-gen secara berdampingan. Tumpukan teknologi: - @LiteLLM untuk orkestrasi - @Cometml's Opik untuk membangun pipeline eval - @OpenRouterAI untuk mengakses model mutakhir - @LightningAI untuk hosting CodeArena Ayo!🚀
Berikut alur kerjanya: - Pilih model untuk perbandingan pembuatan kode - Impor repositori GitHub dan tawarkan sebagai konteks ke LLM - Gunakan konteks + kueri untuk menghasilkan kode dari kedua model - Mengevaluasi kode yang dihasilkan menggunakan G-Eval Opik's Mari kita terapkan ini!
0️⃣ Muat kunci API Dalam demo ini kita akan mengakses GPT-5 melalui openai dan model lainnya menggunakan OpenRouter. Simpan kunci yang diperlukan dalam file .env untuk dimuat ke lingkungan. Periksa ini 👇
1️⃣ Menyerap repositori GitHub Kami menggunakan GitIngest untuk mengonversi repositori GitHub yang ditentukan pengguna menjadi data teks langsung yang siap untuk LLM. LLM akan menggunakan data ini sebagai konteks untuk menghasilkan kode sebagai respons atas kueri pengguna. Lihat 👇 ini
2️⃣ Metrik kebenaran kode Kami sekarang akan membuat metrik evaluasi untuk tugas kami menggunakan G-Eval Opik. Metrik ini menilai kualitas dan kebenaran kode yang dihasilkan dengan membandingkannya dengan kode kebenaran dasar referensi. Lihat 👇 ini
3️⃣ Metrik keterbacaan kode Metrik ini memastikan bahwa kode mematuhi pemformatan yang tepat dan konvensi penamaan yang konsisten. Ini juga mengevaluasi kualitas komentar dan docstring, yang membuat kode mudah dipahami. Lihat 👇 ini
4️⃣ Metrik praktik terbaik Metrik ini memastikan kode bersifat modular, efisien, dan menerapkan penanganan kesalahan yang tepat. Lihat 👇 ini
5️⃣ Hasilkan respons model Sekarang kita siap untuk menghasilkan respons dari kedua model. Kami menentukan basis kode yang diserap sebagai konteks dalam perintah, dan mengalirkan respons dari kedua model secara paralel. Periksa ini 👇
6️⃣ Mengevaluasi kode yang dihasilkan Kami mengevaluasi respons yang dihasilkan oleh kedua model menggunakan metrik yang disebutkan di atas, memberikan penalaran terperinci untuk setiap metrik. Lihat👇 ini
7️⃣ UI Streamlit Terakhir, kami membuat UI Streamlit intuitif yang menyederhanakan membandingkan dan mengevaluasi kedua model dalam satu antarmuka. Periksa ini 👇
Saatnya menguji.. Kueri 1: Bangun server MCP yang memungkinkan agen AI dan chatbot membaca kode, mengelola masalah/PR, menganalisis repositori, dan mengotomatiskan alur kerja di GitHub. Di tiga metrik: Kebenaran, Keterbacaan, dan Praktik terbaik: - Skor GPT-5: 9 - Calude Opus-4.1 Skor: 8.67
CodeArena memungkinkan Anda membandingkan dua model apa pun. Saya juga secara singkat membandingkan GPT-5 dengan Qwen3-Coder! Kueri 2: Server MCP terhubung ke API Notion, memungkinkan AI mengelola catatan, daftar tugas, dan database untuk meningkatkan produktivitas dan organisasi. Lihat 👇 ini
Anda dapat menemukan semua kode dan semua yang Anda butuhkan untuk menjalankan CodeArena di @LightningAI Studio di bawah ini! Cobalah:
Terakhir, berikut adalah 10 evaluasi lagi yang saya jalankan menggunakan Opik untuk membangun server MCP. - GPT-5 menang dalam 6 kasus. - Claude Opus 4.1 menang di 4 sisanya Secara keseluruhan, kedua model tersebut sangat bagus, dengan GPT-5 sedikit lebih baik. Periksa ini 👇
Jika Anda merasa berwawasan luas, bagikan kembali dengan jaringan Anda. Temukan saya → @akshay_pachaar✔️ Untuk wawasan dan tutorial lebih lanjut tentang LLM, Agen AI, dan Pembelajaran Mesin!
Akshay 🚀
Akshay 🚀8 Agu, 22.31
Mari kita bandingkan GPT-5 dan Claude Opus-4.1 untuk pembuatan kode:
33,3K