熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
讓我們比較一下 GPT-5 和 Claude Opus-4.1 在代碼生成方面的表現:
今天,我們正在建立一個 CodeArena,您可以並排比較任何兩個代碼生成模型。
技術棧:
- @LiteLLM 用於協調
- @Cometml 的 Opik 用於構建評估管道
- @OpenRouterAI 用於訪問尖端模型
- @LightningAI 用於托管 CodeArena
讓我們開始吧!🚀
這是工作流程:
- 選擇用於代碼生成比較的模型
- 導入 GitHub 倉庫並將其作為 LLM 的上下文
- 使用上下文 + 查詢從兩個模型生成代碼
- 使用 Opik 的 G-Eval 評估生成的代碼
讓我們實現這個!
0️⃣ 載入 API 金鑰
在這個示範中,我們將通過 openai 訪問 GPT-5 以及使用 OpenRouter 的其他模型。
將所需的金鑰存儲在 .env 文件中以載入到環境中。
查看這個 👇

1️⃣ 載入 GitHub 倉庫
我們使用 GitIngest 將用戶指定的 GitHub 倉庫轉換為簡單的、適合 LLM 的文本數據。
LLM 將利用這些數據作為上下文,以生成對用戶查詢的代碼回應。
查看這個 👇

2️⃣ 代碼正確性指標
我們將使用 Opik 的 G-Eval 為我們的任務創建評估指標。
此指標通過將生成的代碼與參考的真實代碼進行比較來評估質量和正確性。
看看這個 👇

3️⃣ 代碼可讀性指標
此指標確保代碼遵循適當的格式和一致的命名慣例。
它還評估註釋和文檔字符串的質量,使代碼易於理解。
查看這個 👇

4️⃣ 最佳實踐指標
此指標確保代碼是模組化的、高效的,並實施適當的錯誤處理。
查看這個 👇

5️⃣ 生成模型回應
現在我們已經準備好從兩個模型生成回應。
我們在提示中指定已攝取的代碼庫作為上下文,並平行流式傳輸來自兩個模型的回應。
查看這個 👇

6️⃣ 評估生成的代碼
我們使用上述提到的指標來評估兩個模型生成的回應,並為每個指標提供詳細的推理。
查看這個👇

7️⃣ Streamlit UI
最後,我們創建了一個直觀的 Streamlit UI,簡化了在單一介面中比較和評估兩個模型的過程。
查看這個 👇

測試時間..
查詢 1:建立一個 MCP 伺服器,讓 AI 代理和聊天機器人能夠閱讀代碼、管理問題/PR、分析倉庫,並在 GitHub 上自動化工作流程。
在三個指標上:正確性、可讀性和最佳實踐:
- GPT-5 得分:9
- Calude Opus-4.1 得分:8.67

CodeArena 讓你比較任何兩個模型。我也簡要地將 GPT-5 與 Qwen3-Coder 進行了比較!
查詢 2:MCP 伺服器連接到 Notion 的 API,使 AI 能夠管理筆記、待辦事項和數據庫,以提高生產力和組織性。
看看這個 👇

您可以在下面的 @LightningAI Studio 找到運行 CodeArena 所需的所有代碼和一切!
試試看:
最後,這裡有我使用 Opik 進行的 10 次 MCP 伺服器建置評估。
- GPT-5 在 6 個案例中獲勝。
- Claude Opus 4.1 在剩下的 4 個案例中獲勝。
總體而言,這兩個模型都非常出色,GPT-5 略微更好。
查看這個 👇

如果你覺得這很有見地,請與你的網絡分享。
找到我 → @akshay_pachaar✔️
獲取更多有關LLMs、AI代理和機器學習的見解和教程!

8月8日 22:31
讓我們比較一下 GPT-5 和 Claude Opus-4.1 在代碼生成方面的表現:
33.29K
熱門
排行
收藏