让我们比较一下 GPT-5 和 Claude Opus-4.1 在代码生成方面的表现:
今天,我们正在构建一个 CodeArena,您可以并排比较任何两个代码生成模型。 技术栈: - @LiteLLM 用于编排 - @Cometml 的 Opik 用于构建评估管道 - @OpenRouterAI 用于访问尖端模型 - @LightningAI 用于托管 CodeArena 让我们开始吧!🚀
工作流程如下: - 选择用于代码生成比较的模型 - 导入一个 GitHub 仓库,并将其作为上下文提供给 LLMs - 使用上下文 + 查询从两个模型生成代码 - 使用 Opik 的 G-Eval 评估生成的代码 让我们来实现这个!
0️⃣ 加载 API 密钥 在这个演示中,我们将通过 openai 访问 GPT-5 以及使用 OpenRouter 的其他模型。 将所需的密钥存储在 .env 文件中以加载到环境中。 查看这个 👇
1️⃣ 导入 GitHub 仓库 我们使用 GitIngest 将用户指定的 GitHub 仓库转换为简单的、适合 LLM 的文本数据。 LLM 将利用这些数据作为上下文,以生成代码来响应用户的查询。 查看这个 👇
2️⃣ 代码正确性指标 我们现在将使用 Opik 的 G-Eval 创建任务评估指标。 该指标通过将生成的代码与参考的真实代码进行比较来评估代码的质量和正确性。 查看这个 👇
3️⃣ 代码可读性指标 该指标确保代码遵循适当的格式和一致的命名约定。 它还评估注释和文档字符串的质量,使代码易于理解。 查看这个 👇
4️⃣ 最佳实践指标 该指标确保代码模块化、高效,并实现适当的错误处理。 查看这个 👇
5️⃣ 生成模型响应 现在我们已经准备好从两个模型生成响应。 我们在提示中指定摄取的代码库作为上下文,并同时流式传输两个模型的响应。 查看这个 👇
6️⃣ 评估生成的代码 我们使用上述提到的指标评估两个模型生成的响应,并为每个指标提供详细的理由。 查看这个👇
7️⃣ Streamlit 用户界面 最后,我们创建了一个直观的 Streamlit 用户界面,简化了在单一界面中比较和评估这两种模型的过程。 查看这个 👇
测试时间.. 查询 1:构建一个 MCP 服务器,让 AI 代理和聊天机器人能够读取代码、管理问题/PR、分析仓库,并在 GitHub 上自动化工作流程。 在三个指标上:正确性、可读性和最佳实践: - GPT-5 得分:9 - Calude Opus-4.1 得分:8.67
CodeArena 让你可以比较任意两个模型。我还简要地将 GPT-5 与 Qwen3-Coder 进行了比较! 查询 2:MCP 服务器连接到 Notion 的 API,使 AI 能够管理笔记、待办事项和数据库,以提高生产力和组织能力。 看看这个 👇
您可以在下面的 @LightningAI Studio 中找到运行 CodeArena 所需的所有代码和一切! 试试吧:
最后,这里是我使用 Opik 进行的 10 次关于构建 MCP 服务器的评估。 - GPT-5 在 6 个案例中获胜。 - Claude Opus 4.1 在剩下的 4 个案例中获胜。 总体而言,这两个模型都非常优秀,GPT-5 略微更好。 查看这个 👇
如果你觉得这很有启发性,请与您的网络分享。 找到我 → @akshay_pachaar✔️ 获取更多关于LLMs、AI代理和机器学习的见解和教程!
Akshay 🚀
Akshay 🚀8月8日 22:31
让我们比较一下 GPT-5 和 Claude Opus-4.1 在代码生成方面的表现:
33.7K