Hãy so sánh GPT-5 và Claude Opus-4.1 về khả năng tạo mã:
Hôm nay, chúng tôi đang xây dựng một CodeArena, nơi bạn có thể so sánh bất kỳ hai mô hình sinh mã nào cạnh nhau. Công nghệ: - @LiteLLM để điều phối - @Cometml's Opik để xây dựng quy trình đánh giá - @OpenRouterAI để truy cập các mô hình tiên tiến - @LightningAI để lưu trữ CodeArena Đi nào!🚀
Dưới đây là quy trình làm việc: - Chọn các mô hình để so sánh việc tạo mã - Nhập một kho lưu trữ GitHub và cung cấp nó như một ngữ cảnh cho LLMs - Sử dụng ngữ cảnh + truy vấn để tạo mã từ cả hai mô hình - Đánh giá mã được tạo ra bằng Opik's G-Eval Hãy cùng thực hiện điều này!
0️⃣ Tải khóa API Trong bản demo này, chúng ta sẽ truy cập GPT-5 thông qua openai và các mô hình khác bằng cách sử dụng OpenRouter. Lưu trữ các khóa cần thiết trong tệp .env để tải vào môi trường. Kiểm tra cái này 👇
1️⃣ Nhập kho GitHub Chúng tôi sử dụng GitIngest để chuyển đổi một kho GitHub do người dùng chỉ định thành dữ liệu văn bản đơn giản, sẵn sàng cho LLM. Các LLM sẽ sử dụng dữ liệu này làm ngữ cảnh để tạo mã phản hồi theo truy vấn của người dùng. Xem cái này 👇
2️⃣ Chỉ số độ chính xác của mã Chúng ta sẽ tạo ra các chỉ số đánh giá cho nhiệm vụ của mình bằng cách sử dụng G-Eval của Opik. Chỉ số này đánh giá chất lượng và độ chính xác của mã được tạo ra bằng cách so sánh nó với mã tham chiếu đúng. Xem cái này 👇
3️⃣ Chỉ số khả năng đọc mã Chỉ số này đảm bảo rằng mã tuân thủ định dạng đúng và quy tắc đặt tên nhất quán. Nó cũng đánh giá chất lượng của các bình luận và chuỗi tài liệu, giúp mã dễ hiểu hơn. Xem cái này 👇
4️⃣ Thực hành tốt nhất về chỉ số Chỉ số này đảm bảo mã nguồn có tính mô-đun, hiệu quả và thực hiện xử lý lỗi đúng cách. Xem cái này 👇
5️⃣ Tạo phản hồi mô hình Bây giờ chúng ta đã sẵn sàng để tạo phản hồi từ cả hai mô hình. Chúng ta chỉ định mã nguồn đã được tiếp nhận làm ngữ cảnh trong lời nhắc, và phát trực tiếp phản hồi từ cả hai mô hình song song. Kiểm tra điều này 👇
6️⃣ Đánh giá mã được tạo ra Chúng tôi đánh giá các phản hồi được tạo ra bởi cả hai mô hình bằng cách sử dụng các chỉ số đã đề cập ở trên, cung cấp lý do chi tiết cho từng chỉ số. Xem cái này👇
7️⃣ Giao diện Streamlit Cuối cùng, chúng tôi tạo ra một giao diện Streamlit trực quan giúp đơn giản hóa việc so sánh và đánh giá cả hai mô hình trong một giao diện duy nhất. Kiểm tra điều này 👇
Đã đến lúc kiểm tra.. Truy vấn 1: Xây dựng một máy chủ MCP cho phép các tác nhân AI và chatbot đọc mã, quản lý vấn đề/PR, phân tích kho lưu trữ và tự động hóa quy trình làm việc trên GitHub. Trên ba tiêu chí: Độ chính xác, Tính dễ đọc và Thực hành tốt nhất: - GPT-5 đạt điểm: 9 - Calude Opus-4.1 đạt điểm: 8.67
CodeArena cho phép bạn so sánh bất kỳ hai mô hình nào. Tôi cũng đã so sánh ngắn gọn GPT-5 với Qwen3-Coder! Truy vấn 2: Máy chủ MCP kết nối với API của Notion, cho phép AI quản lý ghi chú, danh sách việc cần làm và cơ sở dữ liệu để nâng cao năng suất và tổ chức. Xem cái này 👇
Bạn có thể tìm thấy tất cả mã nguồn và mọi thứ bạn cần để chạy CodeArena trong @LightningAI Studio bên dưới! Hãy thử nghiệm nó:
Cuối cùng, đây là 10 đánh giá nữa mà tôi đã thực hiện bằng Opik về việc xây dựng các máy chủ MCP. - GPT-5 đã thắng trong 6 trường hợp. - Claude Opus 4.1 thắng trong 4 trường hợp còn lại. Tổng thể, cả hai mô hình đều rất xuất sắc, với GPT-5 nhỉnh hơn một chút. Kiểm tra điều này 👇
Nếu bạn thấy nó hữu ích, hãy chia sẻ lại với mạng lưới của bạn. Tìm tôi → @akshay_pachaar✔️ Để biết thêm thông tin và hướng dẫn về LLMs, AI Agents và Machine Learning!
Akshay 🚀
Akshay 🚀22:31 8 thg 8
Hãy so sánh GPT-5 và Claude Opus-4.1 về khả năng tạo mã:
34,02K